370 likes | 832 Views
Metodologías para Minería de Datos. Tema 4. Temario. Introducción Metodología CRISP Metodología de Berry y Linoff Metodología SEMMA. Introducción. Minería de datos es una forma de aprender del pasado para hacer mejores decisiones en el futuro
E N D
Metodologías para Minería de Datos Tema 4 Dr. Francisco J. Mata
Temario • Introducción • Metodología CRISP • Metodología de Berry y Linoff • Metodología SEMMA Dr. Francisco J. Mata
Introducción • Minería de datosesuna forma de aprender del pasadoparahacermejoresdecisiones en el futuro • Unametodologíaestábasada en mejoresprácticas Dr. Francisco J. Mata
Metodologías de minería de datos • Tratan de evitar dos resultadosindeseables en el proceso de aprendizaje • Aprendercosasque no son ciertas • Aprendercosasqueaunqueciertas no son útiles Dr. Francisco J. Mata
Aprendercosasque no son ciertas • Máspeligrosoqueaprendercosasque no son útiles • Decisionesimportantespuedenestarbasadas en información o conocimientoincorrecto Dr. Francisco J. Mata
Problemasquellevan a conclusionesfalsas • Patrones en los datospueden no representarreglas • El modelodesarrolladopuede no reflejar la poblaciónrelevante • Los datospuedenestar en un nivelequivocado de detalle Dr. Francisco J. Mata
Patrones en los datospueden no reflejarreglas • Los sereshumanosdependentanto de patrones en susvidasquetienden a verlosaunque no existan • Ejemplos de patrones • Alternancia de día y noche • Estaciones • Horas y días de programas en la TV Dr. Francisco J. Mata
Patrones en los datospueden no reflejarreglas • El desafío de la minería de datosesencontrarpatronesquetengan valor predictivo • El partidoque no tiene la presidenciatiende a ganarmáspuestos en el Congresodurantelaselecciones de medioperiodo • Razonespolíticas • Cuando la Liga Americana gana la Serie Mundial, los Republicanosganan la Casa Blanca • No hay razónaparente • En laseleccionespresidenciales, el hombre más alto gana • Desde 1945 • Carter versus Ford • Gore versus Bush Dr. Francisco J. Mata
El modelodesarrolladopuede no reflejar la poblaciónrelevante • Para haceralgunapredicción se crea un modelo de la situación • Este modelo se desarrolla a partir de unamuestra de la población • Muestrassesgadas Dr. Francisco J. Mata
Los datospuedenestar en un nivelequivocado de detalle ¿Cayeron las ventas en octubre? Dr. Francisco J. Mata
Aprendercosasqueaunqueciertas no son útiles • Aprendercosasqueya son conocidas • Aprendercosasque no pueden ser utilizadas Dr. Francisco J. Mata
Aprendercosasqueya son conocidas • Muchos de los patrones en los datosrepresentancosasqueyaconocemos • Personas retiradas no responden a ofertaspara planes de retiro • Personas quevivendonde no hay torres de celulartienden a no comprartéléfonoscelulares Dr. Francisco J. Mata
Aprendercosasqueya son conocidas • Aprendercosasqueyaconocemostiene sin embargo un propósitoútil • Demuestraque la minería de datosestáfuncionando y que los datos son razonablementeprecisos Dr. Francisco J. Mata
Aprendercosasque no pueden ser utilizadas • La minería de datospuededescubrirrelacionesque son tantociertascomodesconocidas per difíciles de utilizar • Problemasregulatorios • Historia de crédito de un clientepuedepredecirfuturosreclamos de seguro, pero la ley no permitediscriminar a los clientes • No se puedecambiar el ambiente en que se opera • Un productopuede ser másapropiadoparaciertosclimasqueotrospero no se puedecambiar el clima • Un serviciopuede ser peor en ciertascondicionestopografíapero no se puedecambiarestascondiciones Dr. Francisco J. Mata
CRISP-DM • Cross Industry Standard Processfor Data Mining • Desarrollada en 1996 por • Daimler Benz (ahora Daimler Chrysler) • ISL (ahora parte de SPSS), que lanzara en 1994 Clementine (software para minería de datos) • NCR creador de Teradata (software para bodega de datos) • Independiente de la herramientas de minería de datos utilizados • Guía CRISP-DM Versión 1.0 (http://www.crisp-dm.org/CRISPWP-0800.pdf) Dr. Francisco J. Mata
Divisiones de CRISP-DM Dr. Francisco J. Mata
Fases de CRISP-DM Dr. Francisco J. Mata
Fases de CRISP-DM • Entendimiento del negocio • Comprender los objetivos y requerimientos del proyecto desde la perspectiva del negocio • Este conocimiento es luego convertido en la definición de un problema de minería de datos y un plan preliminar es desarrollado para alcanzar estos objetivos Dr. Francisco J. Mata
Fases de CRISP-DM • Entendimiento de los datos • Recolección inicial de datos • Continúa con actividades para • Familiarizarse con los datos • Identificar problemas con la calidad de los datos • Descubrir percepciones de su naturaleza interna o detectar subconjuntos interesantes para formar hipótesis Dr. Francisco J. Mata
Fases de CRISP-DM • Preparación de datos • Actividades para construir el conjunto de datos final, el cual será utilizado como entrada a las herramientas de modelaje • Las tareas se pueden aplicar múltiples veces y sin un orden pre-establecido • Incluyen extracción, transformación y carga (ETL) Dr. Francisco J. Mata
Fases de CRISP-DM • Modelado • Varias técnicas de modelado son seleccionadas y aplicadas y sus parámetros calibrados a valores óptimos • Existen varias técnicas de minería de datos que se pueden aplicar a un mismo problema • Dichas técnicas tienen diferentes requerimientos de datos haciendo en muchas ocasiones necesario volver a la etapa de preparación de datos Dr. Francisco J. Mata
Fases de CRISP-DMModelado Dr. Francisco J. Mata
Fases de CRISP-DM • Evaluación • Determina si el modelo construido satisface los objetivos del negocio • ¿Existen aspectos del negocio que no hayan sido considerados suficientemente? • Evaluar resultados • Resultados=Modelos+Descrubimientos Dr. Francisco J. Mata
Fases de CRISP-DM • Aplicación del modelo o sus resultados • Tan simple como generar un reporte o tan complejo como implementar un proceso continuo de minería de datos a través de la empresa Dr. Francisco J. Mata
Tareas genéricas Dr. Francisco J. Mata
Tareas genéricas y salidas para entender el negocio Dr. Francisco J. Mata
Tareas genéricas y salidas para entender los datos Dr. Francisco J. Mata
Tareas genéricas y salidas para preparación de datos Dr. Francisco J. Mata
Tareas genéricas y salidas para modelado Dr. Francisco J. Mata
Tareas genéricas y salidas para evaluación Dr. Francisco J. Mata
Tareas genéricas y salidas para aplicación del modelo o sus resultados Dr. Francisco J. Mata
Fases, tareas, salidas, actividades • Guía del usuario para CRISP-DM (página 35) Dr. Francisco J. Mata
Metodología de Berry y Linoff Dr. Francisco J. Mata
Metodología SEMMA • Desarrolladapor SAS • Sample: Muestreo • Explore: Exploración • Modify: Modificar • Model: Modelaje • Assess: Evaluar • Apoyadapor el Enterprise Data Miner Dr. Francisco J. Mata
Comparaciónmetodologías Entendimiento del negocio Traducirprobl. negocio en probl. minería Entendimiento de los datos Muestro Exploración Seleccionardatos Arreglarproblemadatos Transformardatos Preparación de datos Modificación Construirmodelo Evaluarmodelo Modelaje Modelaje Evaluación Evaluación (objetivos del negocio) SEMMA Puesta en operación Puesta en operación Evaluarresultados CRISP Berry y Linoff Dr. Francisco J. Mata