200 likes | 346 Views
Knowledge Discovery & Datamining. José Eduardo Rizo-Tuxpan <erizo@uv.mx> KDD México. Los datos son baratos (al menos relativamente); el conocimiento es más difícil de conseguir. La frase del día. Obtenga más información en el sitio web de KDD México.
E N D
Knowledge Discovery & Datamining José Eduardo Rizo-Tuxpan <erizo@uv.mx> KDD México
Los datos son baratos (al menos relativamente); el conocimiento es más difícil de conseguir. La frase del día Obtenga más información en el sitio web de KDD México • (Haga clic en la flecha cuando se encuentre en el modo Presentación).
Semántica de los datos KDD.MX Conceptos básicos Tipos de datos Calidad de los datos Pre-procesamiento de datos Semejanza y disimilitud Ejercicios
Conceptos básicos KDD.MX ¿Qué es un conjunto de datos? Una gran tabla con números y texto en la cual cada fila describe una observación del mundo real y cada columna describe un atributo que puede ser medido para cada una de las observaciones. [Conway, 2013] ¿Qué es la Minería de Datos? Extracción de Patrones útiles (no triviales) o modelos a partir de grandes volúmenes de datos. [Fayyad, Piatetsky-Shapiro, & Smith, 1996] Estadística Minería de Datos IA, Aprendizaje Máquina, Reconocimiento de patrones Bases de datos, Computación paralela, Computación distribuida Confluencia de varias disciplinas
Conceptos básicos KDD.MX Minería de datos: Extracción de conocimiento útil a partir de datos que ayuden a resolver problemas que pueden tratarse sistemáticamente siguiendo un proceso con etapas razonablemente bien definidas. [The Cross Industry Standard Process for Data Mining, CRISP-DM 2000] [Provost, 2013].
Rapid Miner KDD.MX Minería de Datos vs Online Analytical Processing (OLAP) La gente tiende a ver aquello que está buscando. Muchos investigadores analistas tenemos expectativas antes de empezar y trabajamos tanto como sea necesario sobre los datos para probar nuestro punto de vista. La Minería de Datos hace el trabajo que con OLAP debe hacer un humano (tedioso). Sistema que soporta el diseño y documentación del proceso completo de Minería de Datos. Desarrollado por el departamento de Inteligencia Artificial de la Universidad de Dortmund en 2001. Incluye más de 500 operadores orientados al análisis de datos. Se puede extender mediante Weka.
Cuatro ramas principales de la Minería de Datos KDD.MX ANÁLISIS DE CLUSTERS MODELADO PREDICTIVO DETECCIÓN DE ANOMALÍAS ANÁLISIS DE ASOCIACIÓN
Minería de Datos & KDD KDD.MX La Minería de Datos es parte integral del proceso llamado KDD; que convierte datos crudos en información útil. Minería de Datos Post Procesamiento Pre Procesamiento de datos Datos de entrada Información • Variedad de formatos • Selecció • n de atributos • Reducción de la dimensionalidad • Normalización • Filtrado de subconjuntos • Visualización • Interpretación de patrones
Minería de Datos & KDD KDD.MX En la Minería de Datos convergen varias disciplinas. Las tareas se dividen generalmente en: Descriptivas: El objetivo es predecir el valor de un atributo particular tomando como base el valor de otros atributos. Predictivas: El objetivo es derivar patrones (correlaciones, tendencias, clusters, trayectorias y anomalías) que resumen las relaciones subyacentes en los datos. Minería de Datos Estadística Inteligencia Artificial Ciencias de la Computación
Descubrimiento del conocimiento en datos KDD.MX KDD no consiste en aplicar un algoritmo de Machine Learning a un conjunto de datos, sino un proceso continuo con múltiples retroalimentaciones. Proceso formalizado por CRISP-DM (CRoss Industry Standard Process for Data Mining): Comprensión del problema Comprensión de los datos Preparación de los datos (limpieza y pre-procesamiento) Modelado (Algoritmos de Machine Learning) Evaluación (Verificar el desempeño de los algoritmos empleados) Deployment
Los nombres de la Minería de Datos KDD.MX AÑO COMUNIDAD TÉRMINO 1960’s Estadística Data Fishing 1989 Inteligencia Artificial Knowledge Discovery in Databases 1990’s Bases de Datos Data Mining Hoy en día los términos Minería de Datos y KDD son intercambiables.
Tareas comunes en la Minería de Datos KDD.MX Nombre Objetivo Clasificación: Predecir la clase de un elemento. Clustering: Encontrar grupos en los datos. Asociaciones: A y B y C ocurren frecuentemente. Visualización: Facilitar el descubrimiento por humanos. Detección de desviaciones: Encontrar cambios. Estimación: Predecir un valor continuo. Análisis de enlaces: Encontrar relaciones.
Ejercicio: Un problema de clasificación KDD.MX IRIS SETOSA IRIS VIRGINICA IRIS VERSICOLOR
El comic del día Obtenga más información en el sitio web de KDD México • (Haga clic en la flecha cuando se encuentre en el modo Presentación).
Clustering :: Aprendizaje no supervisado KDD.MX Clustering es muy similar a la clasificación, sus algoritmos forman grupos de datos con base en diferentes medidas de similitud. En Minería de Datos, este tipo de técnicas son muy útiles cuando no se tiene una idea preconcebida del número de clusters que se están buscando. Diferencia entre clasificación vs clustering La clasificación busca etiquetar una nueva observación tomando como base el aprendizaje obtenido de observaciones previas. El clustering no contempla nuevos datos, si estos aparecen, debe evaluarse el conjunto de datos completo.
Similaridad KDD.MX La proximidad de objetos con un número de atributos se define por la combinación de las proximidades de sus atributos individuales. Atributo nominal: {1=igual, 0=diferente} Atributo ordinal: {malo, regular, bueno, excelente} Atributo intervalo y razón: Diferencia absoluta de valores. Distancia de Mincowskid(x, y) =
Análisis de Componentes Principales KDD.MX Técnica estadística de síntesis de información o reducción de la dimensión (número de variables). El propósito es conservar las variables que aporten la mayor cantidad de información.
Reducción de dimensión KDD.MX Si existe alta correlación entre las variables entonces es muy probable que exista información redundante. Si existe redundancia, entonces unos pocos atributos describirán la mayor parte de la variabilidad total.
Componentes Principales KDD.MX Primero se debe seleccionar el factor que recoja la mayor proporción posible de la variabilidad total. El segundo factor debe recoger la mayor cantidad de variabilidad que no fue recogida por el primero. Etc. Del total de factores, se eligen aquellos que recojan la variabilidad que se considere suficiente. Estos son los Componentes Principales.
Referencias bibliográficas Machine Learning for Hackers.Conway Drew, White Johen Myles. O’Reilly. 2013. ISBN 978-1-449-30371-6. Data Science for Business. Provost Foster, Fawcett Tom. O’Reilly. 2013. ISBN 978-1-449-36132-7. Artificial Intelligence for humans. Volume 1: Fundamental Algorithms. Heaton, Jeff. HeatonResearch, 2013. ISBN 978-1493682225.