1 / 35

Metodologías para Minería de Datos

Metodologías para Minería de Datos. Tema 4. Temario. Introducción Metodología CRISP Metodología de Berry y Linoff Metodología SEMMA. Introducción. Minería de datos es una forma de aprender del pasado para hacer mejores decisiones en el futuro

Download Presentation

Metodologías para Minería de Datos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Metodologías para Minería de Datos Tema 4 Dr. Francisco J. Mata

  2. Temario • Introducción • Metodología CRISP • Metodología de Berry y Linoff • Metodología SEMMA Dr. Francisco J. Mata

  3. Introducción • Minería de datosesuna forma de aprender del pasadoparahacermejoresdecisiones en el futuro • Unametodologíaestábasada en mejoresprácticas Dr. Francisco J. Mata

  4. Metodologías de minería de datos • Tratan de evitar dos resultadosindeseables en el proceso de aprendizaje • Aprendercosasque no son ciertas • Aprendercosasqueaunqueciertas no son útiles Dr. Francisco J. Mata

  5. Aprendercosasque no son ciertas • Máspeligrosoqueaprendercosasque no son útiles • Decisionesimportantespuedenestarbasadas en información o conocimientoincorrecto Dr. Francisco J. Mata

  6. Problemasquellevan a conclusionesfalsas • Patrones en los datospueden no representarreglas • El modelodesarrolladopuede no reflejar la poblaciónrelevante • Los datospuedenestar en un nivelequivocado de detalle Dr. Francisco J. Mata

  7. Patrones en los datospueden no reflejarreglas • Los sereshumanosdependentanto de patrones en susvidasquetienden a verlosaunque no existan • Ejemplos de patrones • Alternancia de día y noche • Estaciones • Horas y días de programas en la TV Dr. Francisco J. Mata

  8. Patrones en los datospueden no reflejarreglas • El desafío de la minería de datosesencontrarpatronesquetengan valor predictivo • El partidoque no tiene la presidenciatiende a ganarmáspuestos en el Congresodurantelaselecciones de medioperiodo • Razonespolíticas • Cuando la Liga Americana gana la Serie Mundial, los Republicanosganan la Casa Blanca • No hay razónaparente • En laseleccionespresidenciales, el hombre más alto gana • Desde 1945 • Carter versus Ford • Gore versus Bush Dr. Francisco J. Mata

  9. El modelodesarrolladopuede no reflejar la poblaciónrelevante • Para haceralgunapredicción se crea un modelo de la situación • Este modelo se desarrolla a partir de unamuestra de la población • Muestrassesgadas Dr. Francisco J. Mata

  10. Los datospuedenestar en un nivelequivocado de detalle ¿Cayeron las ventas en octubre? Dr. Francisco J. Mata

  11. Aprendercosasqueaunqueciertas no son útiles • Aprendercosasqueya son conocidas • Aprendercosasque no pueden ser utilizadas Dr. Francisco J. Mata

  12. Aprendercosasqueya son conocidas • Muchos de los patrones en los datosrepresentancosasqueyaconocemos • Personas retiradas no responden a ofertaspara planes de retiro • Personas quevivendonde no hay torres de celulartienden a no comprartéléfonoscelulares Dr. Francisco J. Mata

  13. Aprendercosasqueya son conocidas • Aprendercosasqueyaconocemostiene sin embargo un propósitoútil • Demuestraque la minería de datosestáfuncionando y que los datos son razonablementeprecisos Dr. Francisco J. Mata

  14. Aprendercosasque no pueden ser utilizadas • La minería de datospuededescubrirrelacionesque son tantociertascomodesconocidas per difíciles de utilizar • Problemasregulatorios • Historia de crédito de un clientepuedepredecirfuturosreclamos de seguro, pero la ley no permitediscriminar a los clientes • No se puedecambiar el ambiente en que se opera • Un productopuede ser másapropiadoparaciertosclimasqueotrospero no se puedecambiar el clima • Un serviciopuede ser peor en ciertascondicionestopografíapero no se puedecambiarestascondiciones Dr. Francisco J. Mata

  15. CRISP-DM • Cross Industry Standard Processfor Data Mining • Desarrollada en 1996 por • Daimler Benz (ahora Daimler Chrysler) • ISL (ahora parte de SPSS), que lanzara en 1994 Clementine (software para minería de datos) • NCR creador de Teradata (software para bodega de datos) • Independiente de la herramientas de minería de datos utilizados • Guía CRISP-DM Versión 1.0 (http://www.crisp-dm.org/CRISPWP-0800.pdf) Dr. Francisco J. Mata

  16. Divisiones de CRISP-DM Dr. Francisco J. Mata

  17. Fases de CRISP-DM Dr. Francisco J. Mata

  18. Fases de CRISP-DM • Entendimiento del negocio • Comprender los objetivos y requerimientos del proyecto desde la perspectiva del negocio • Este conocimiento es luego convertido en la definición de un problema de minería de datos y un plan preliminar es desarrollado para alcanzar estos objetivos Dr. Francisco J. Mata

  19. Fases de CRISP-DM • Entendimiento de los datos • Recolección inicial de datos • Continúa con actividades para • Familiarizarse con los datos • Identificar problemas con la calidad de los datos • Descubrir percepciones de su naturaleza interna o detectar subconjuntos interesantes para formar hipótesis Dr. Francisco J. Mata

  20. Fases de CRISP-DM • Preparación de datos • Actividades para construir el conjunto de datos final, el cual será utilizado como entrada a las herramientas de modelaje • Las tareas se pueden aplicar múltiples veces y sin un orden pre-establecido • Incluyen extracción, transformación y carga (ETL) Dr. Francisco J. Mata

  21. Fases de CRISP-DM • Modelado • Varias técnicas de modelado son seleccionadas y aplicadas y sus parámetros calibrados a valores óptimos • Existen varias técnicas de minería de datos que se pueden aplicar a un mismo problema • Dichas técnicas tienen diferentes requerimientos de datos haciendo en muchas ocasiones necesario volver a la etapa de preparación de datos Dr. Francisco J. Mata

  22. Fases de CRISP-DMModelado Dr. Francisco J. Mata

  23. Fases de CRISP-DM • Evaluación • Determina si el modelo construido satisface los objetivos del negocio • ¿Existen aspectos del negocio que no hayan sido considerados suficientemente? • Evaluar resultados • Resultados=Modelos+Descrubimientos Dr. Francisco J. Mata

  24. Fases de CRISP-DM • Aplicación del modelo o sus resultados • Tan simple como generar un reporte o tan complejo como implementar un proceso continuo de minería de datos a través de la empresa Dr. Francisco J. Mata

  25. Tareas genéricas Dr. Francisco J. Mata

  26. Tareas genéricas y salidas para entender el negocio Dr. Francisco J. Mata

  27. Tareas genéricas y salidas para entender los datos Dr. Francisco J. Mata

  28. Tareas genéricas y salidas para preparación de datos Dr. Francisco J. Mata

  29. Tareas genéricas y salidas para modelado Dr. Francisco J. Mata

  30. Tareas genéricas y salidas para evaluación Dr. Francisco J. Mata

  31. Tareas genéricas y salidas para aplicación del modelo o sus resultados Dr. Francisco J. Mata

  32. Fases, tareas, salidas, actividades • Guía del usuario para CRISP-DM (página 35) Dr. Francisco J. Mata

  33. Metodología de Berry y Linoff Dr. Francisco J. Mata

  34. Metodología SEMMA • Desarrolladapor SAS • Sample: Muestreo • Explore: Exploración • Modify: Modificar • Model: Modelaje • Assess: Evaluar • Apoyadapor el Enterprise Data Miner Dr. Francisco J. Mata

  35. Comparaciónmetodologías Entendimiento del negocio Traducirprobl. negocio en probl. minería Entendimiento de los datos Muestro Exploración Seleccionardatos Arreglarproblemadatos Transformardatos Preparación de datos Modificación Construirmodelo Evaluarmodelo Modelaje Modelaje Evaluación Evaluación (objetivos del negocio) SEMMA Puesta en operación Puesta en operación Evaluarresultados CRISP Berry y Linoff Dr. Francisco J. Mata

More Related