DM - aplicaciones - Bases de Datos - Otoño 2012

Transcripción

DM - aplicaciones - Bases de Datos - Otoño 2012
Aplicaciones de minería de
datos
Por:
M.C. Leopoldo González Rosas
www.cnys.com.mx
campodeEncinos.wordpress.com
Agenda
• Presentación
• Motivación
• ¿qué es minería de datos?
– Disciplinas involucradas
• Aplicaciones
– Bibliotecas
– Universidades
– otras
• ¿cómo funciona?
– Arquitectura de inteligencia de negocios
Agenda (cont.)
– Metodología: El proceso de descubrimiento de
conocimiento en bases de datos (KDD)
– Recolección/preparación de datos
– Algoritmos
– Modelo predictivo y su interpretación
– Utilizando los resultados
• Toma de decisiones
• Sistemas operacionales
• Software de minería de datos
• Minería de datos y ética
• Conclusión
Presentación
 Yo:
 Formación académica:
 Licenciatura en Ciencias de la computación – BUAP FCC
 Maestría en Ciencias con especialidad en Ingeniería en Sistemas - UDLAP
 Experiencia profesional




CNyS S.C. - Consultoría (BI, BD, PM, desarrollo de software)
gedas VW (BI, preventas, consultoría, LP)
BBVA Bancomer (BI, LP)
SFA Puebla (soporte técnico BD)
 Experiencia académica
 Programación
 Bases de datos / Inteligencia de negocios
 Universidades: UDLAP, UPAEP, BUAP
 Áreas de interés
 Bases de datos e inteligencia de negocios
 Desarrollo de software
 Proceso de enseñanza - aprendizaje
Motivación
• “Knowing is not enough; we must apply.
Willing is not enough; we must do.”.
Goethe
 Generamos datos de manera exponencial
 Era de información
 Obtener el conocimiento
oculto en esos datos
 Datos  información  conocimiento
 Competir en este mundo de
negocios globalizado
¿qué es minería de datos?
• Minería
de datos es el proceso por el cual
USAR LA PREDICCION PARA MEJORAR Y GANAR EN LOS
generamos un modelo
que sirva para la
NEGOCIOS
predicción,
– este modelo se genera a partir de datos
aplicándoles algún algoritmo que construye el
modelo.
• El modelo se evalúa para saber que tan
certero será respecto a sus predicciones y
posteriormente
• se utiliza para predecir el comportamiento
de cualquier dato nuevo
¿qué es minería de datos? (cont.)
• Es la extracción de información
implícita, previamente desconocida y
potencialmente útil a partir de datos
[Witten I.H. et al, 2011]
• Es una disciplina joven y de rápido
crecimiento, conocida como KDD, …
DM como la evolución de TI. [Han J. et
al, 2012]
• Es la extracción automatizada de
información escondida a partir de
(grandes) bases de datos. Te permite
ser proactivo. Prospectivo en lugar de
retrospectivo[Thearling K.]
Minería de datos - disciplinas
ejemplo: reglas if-then
if tasaProducciónLagrimas = reducida
then recomendacion = ninguna
Else
if edad=joven and astigmatismo=no
then recomendación = suaves
ejemplo: árbol de decisión
Aplicación en bibliotecas MBA
ID
PRODUCTOS
OCT-1
1
QA
QB
OCT-1
2
QC
QD
OCT-1
3
QE
QA
OCT-1
4
QB
QC
OCT-1
5
QD
QE
OCT-2
6
QB
QC
OCT-2
7
QD
QE
OCT-2
8
QA
QB
OCT-2
9
QC
QA
QB
OCT-2
10 QC
QA
QB
OCT-2
11 QC
QA
QB
OCT-2
12 QC
QD
QE
QA
Aplicación en bibliotecas DT
Aplicación en universidades
Aplicación universidades
Otras aplicaciones
• Marketing
• Predicción de ventas, precios, acciones e índices
financieros.
• Detección de fraudes en tarjetas de crédito
• Clasificación y filtrado de documentos, e-mails y
noticias.
• Análisis de llamadas en Centros de atención
telefónica.
• Clasificación automática de Quejas y
Sugerencias de Clientes.
Arquitectura de inteligencia de
negocios
• Software del sistema (system software)
– Sistemas operativos, DBMS, compiladores
• Software de aplicación (app software)
– Operacional
• OLTP y batch
• Office, nomina, ventas, ERP
– Para la toma de decisiones -> inteligencia
de negocios
Arquitectura
Metodología: KDD
Metodología (cont.)
1) Establecer de manera precisa el problema a resolver
- No gastes dinero, antes de comprar un software
primero establece que es lo que quieres resolver
2) Exploración inicial
-preparación y limpieza de datos
-transformaciones de datos
- Probar con estadística descriptiva para conocer datos
3) Construcción del modelo y validación
- Probar algunos modelos y elegir el mejor para el
problema que se está resolviendo
4) Liberación
- Una vez construido el modelo se puede usar muchas
veces
- Los árboles de decisión son fáciles de liberar
Recolección/preparación de datos
• Extraer, transformar, cargar
– Posiblemente ya existe un almacén de datos
• Limpieza / calidad de datos
• Transformaciones para la minería
– “Discretizar” (ejemplo: E B R M)
• Muestra(s) -> vistas minables
– Cómo se obtiene
– Tamaño de la muestra
Algoritmos de minería de datos
• Clasificación – predicen una o más variables discretas,
basandose en los otros atributos en el conjunto de datos.
Ejemplo: árboles de decisión
• Regresion – predice una o más variables continuas, como
perdida o ganancia, basandose en los otros atributos en el
conjunto de datos.
• Segmentación – divide datos en grupos o clusters de
articulos que tienen propiedades similares.
• Asociación - encuentran correlaciones entre los diferentes
atributos de un conjunto de datos. Sirven para crear reglas
de asociación por ejemplo para MBA.
• Análisis de secuencia – encuentra secuencias frecuentes o
episodios en datos, como en un flujo de rutas Web.
Modelo predictivo y su interpretación
If temperatura = agradable then humedad = normal
Utilizando los resultados
• Se recorre el modelo cada vez que se desea
predecir
– Por ejemplo para decidir a quien otorgarle un
apoyo adicional
– Por ejemplo para decidir si se le presta o no
dinero a alguien
• El modelo se puede usar para calificar a los
datos de los sistemas operacionales para:
– Por ejemplo: identificar “Preferentes”
– Por ejemplo: identificar “ evasores fiscales”
Software de DM
•
•
•
•
•
•
Weka y pentaho
Rapid Miner
Microsoft SQL Server 2008 R2
sas enterprise miner
IBM spss
Oracle data mining
Minería de datos y ética
•Es difícil hacer que los datos sean “anónimos”
– 85% de la gente puede ser identificada por su
C.P., fecha de nacimiento y genero
•La minería de datos se usa para discriminar
•Ejemplo: aplicación de prestamos: usar información como sexo,
religión o raza no es ético
•La situación etica depende de la aplicación
•Ejemplo: la misma información esta bien en aplicaciones medicas
•Los atributos pueden contener información
problematica
–Ejemplo: el CP se puede correlacionar con la raza
Conclusiones
• Minería de datos se ha venido estudiando e
investigando pero no se esta aplicando en los
diversos problemas de nuestro país
– Educación, salud, el campo, eliminar la pobreza
• Mientras tenemos científicos trabajando en este
tema, debemos preparar a las personas que lo
aplicarán. (astrónomos y astronautas)
• Es una tecnología que ya está al alcance de todo
el mundo
• ¿Y el e-commerce? ¿Y la nube? ¿y las iPads? …
GRACIAS POR SU ATENCIÓN
[email protected]
[email protected]
Bibliografía
• campodeEncinos.wordpress.com
• http://catarina.udlap.mx/u_dl_a/tales/documentos/msp/gonzalez
_r_l/
• http://www.uppuebla.edu.mx/Revista/revista10.pdf
• http://hmi.ucsd.edu/pdf/HMI_2009_ConsumerReport_Dec9_2009
.pdf
• http://www.cs.waikato.ac.nz/~ml/weka/book.html
• Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer,
Peter Reutemann, Ian H. Witten (2009); The WEKA Data Mining
Software: An Update; SIGKDD Explorations, Volume 11, Issue 1
• Kiron D. et al. Analytics:the widening divide – how companies are
achieving competitive advantage through analytics. MIT
Sloan/IBM research report fall 2011
• http://www.kdnuggets.com/software/suites.html
• http://ccita2010.utmetropolitana.edu.mx/recursos/Recursos_digit
ales.pdf

Documentos relacionados