1 / 38

Curso-Taller Datos multivariados: Análisis Clásicos y Nuevas Tecnologías

Curso-Taller Datos multivariados: Análisis Clásicos y Nuevas Tecnologías. Tema 3: Clasificación. Clasificaci ón análisis de conglomerados. ¿Qué es el análisis de conglomerados?.

mirari
Download Presentation

Curso-Taller Datos multivariados: Análisis Clásicos y Nuevas Tecnologías

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Curso-Taller Datos multivariados: Análisis Clásicos y Nuevas Tecnologías Tema 3: Clasificación

  2. Clasificación análisis de conglomerados ¿Qué es el análisis de conglomerados? Técnicas o algoritmos matemáticos que tienen por objeto la búsqueda de grupos de individuos de similares características, o de grupos de variables con comportamiento similar ¿Qué hace el análisis de conglomerados? Clasificar a la muestra de individuos en grupos lo más homogéneos posible con base en las variables observadas • ¿Para qué sirve? • Definir de tipos funcionales como base para una clasificación • Definir tipologías de productores • Identificar ambientes con características particulares • …..

  3. Clasificación análisis de conglomerados • Objetivo: • El agrupamiento debe ser tal que individuos dentro de un grupo sean más parecidos entre sí, que aquellos que pertenecen a grupos distintos Distancia entre individuos (tipo de variables): La matriz de datos n x p es transformada en una matriz de proximidad o de disimilitud: • (n x n) que mide la semejanza o la distancia entre pares de individuos i y i’ para i,i’ = 1,..., n (p x p) que mide la semejanza o la distancia entre pares de variables j y j’ para j,j’ = 1,..., p

  4. Clasificación análisis de conglomerados En el análisis de conglomerados noes necesarioconocer “a priori” el grupo al que pertenece cada individuo. A diferencia del análisis discriminante que tiene como requisito conocer un agrupamiento a priori • Dos decisiones a tomar: • elección de la medida de distancia • elección del algoritmopara agrupar • El algoritmo indica cómo se formarán los grupos a partir de una matriz de distancias

  5. Clasificación análisis de conglomerados • Distancias: • Variables cuantitativas: • Se usan Medidas de distancia basadas en el espaciamiento de los puntos representados en un espacio multidimensional (ej. distancia Euclídea o Pitagórica, Mahalanobis … ) • Variables cualitativas: • Se usan medidas de asociación. • Distancias definidas como 1-medida de asociación. Medidas de asociación basadas en el número de concordancias y discordancias entre objetos sobre todas las dimensiones observadas

  6. Clasificación análisis de conglomerados Medidas de similaridad

  7. Clasificación análisis de conglomerados Obtención de medidas de distancia a partir de similitudes

  8. Clasificación análisis de conglomerados Distancias cuando hay mezclas de variables No existe una metodología única para este problema, diferentes autores lo enfocan de distintas formas Una solución es combinar una distancia que vaya entre 0 y 1 para variables cuantitativas y otra que tome valores 0 o 1 para variables cualitativas Usar distancia a partir de la similaridad de Gower Usar coordenadas principales para resumir la información de variables binarias obtenidas a partir de rasgos cualitativos y tratar a todas como cuantitativas

  9. Clasificación análisis de conglomerados Algoritmos: Métodos no jerárquicos: producen una única partición Métodos jerárquicos: producen particiones jerárquicas • Aglomerativos (comienzan con tantos grupos como individuos existan y terminan con un solo grupo final) • Disociativos(comienzan con un solo grupo y en forma descendente particionan los grupos ya formados hasta que cada grupo tiene un solo individuo)

  10. Clasificación análisis de conglomerados Métodos Jerárquicos Vecino más próximo o distancias mínimas Los grupos se unen en base a la distancia entre los dos miembros más cercanos A B C D E

  11. Clasificación análisis de conglomerados Algoritmos de agrupamiento Vecino más lejano o distancias máximas: La distancia entre conglomerados es la del par de objetos más distantes Encadenamiento Promedio (o de la media de distancias): Para obtener la distancia entre dos conglomerados, se promedian todas las distancias entre pares de objetos donde un miembro del par pertenece a uno de los conglomerados y el otro miembro pertenece al otro conglomerado Media ponderada Centroide ( distancia entre medias de variables): Toma el promedio de todos los objetos en un conglomerado (centroide) para representar al conglomerado y medir distancias entre objetos y el conglomerado, o entre conglomerados Mediana Método de Ward (minimiza los errores): Promedia todas las distancias entre los pares de objetos en diferentes grupos, ajustando por las covarianzas

  12. Clasificación análisis de conglomerados Métodos de medición de distancias entre conglomerados Vecino mas cercano Vecino mas lejano Centroide (enlace múltiple) Promedio (enlace múltiple) Encadenamiento promedio (UPGMA) Mínima varianza WARD-AnaVa Encadenamiento simple Encadenamiento completo

  13. Clasificación análisis de conglomerados ¿Como decidir? Coeficiente de correlación cofenético Entre la métrica del árbol jerárquico y la matriz original Mas alto es mejor Vecino mas cercano Vecino mas lejano Centroide (enlace múltiple) Promedio (enlace múltiple) Encadenamiento promedio (UPGMA) Mínima varianza WARD-AnaVa Encadenamiento simple Encadenamiento completo

  14. Clasificación análisis de conglomerados Técnicas de clasificación jerárquicas: Dendrograma

  15. Clasificación análisis de conglomerados Ejemplos con software estadístico • Archivos que utilizaremos • Conglomerado uno.IDB2 • Conglomerado dos.IDB2 URL: http://www.infostat.com.ar Cómo citar InfoStat Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W. InfoStatversión 2010. GrupoInfoStat, FCA, Universidad Nacional de Córdoba, Argentina. URL http://www.infostat.com.ar

  16. Clasificación análisis de conglomerados Resumir repeticiones Algorítmo Inspeccionar matriz de similaridad Distancia Estandarizar variables y # de conglomerados Agrupar individuos o variables

  17. Clasificación análisis de conglomerados Comentarios Finales • Es una técnica exploratoria. No se necesitan supuestos de agrupamiento “a priori”, ni de otro tipo • ¿Qué hacer si hay diferentes escalas y diferentes magnitudes entre las variables? • Si tienen diferente escalas elegir una medida de distancia adecuada • a mezcla de variables • Si tienen diferente magnitud puede convenir estandarizar • antes de agrupar • ¿Por cuántos grupos o “clusters” decidirse? • El criterio a usar depende de la medida de distancia • usadas y de la finalidad del agrupamiento

  18. Clasificación análisis de conglomerados • listo

  19. Clasificación análisisdiscriminante ANÁLISIS DISCRIMINANT (análisis confirmatorio) Objetivos: Asignar nuevos individuos a grupos preexistentes usando una regla de clasificación Discriminar entre grupos conocidos a priori Construye una regla para predecir la probabilidad de pertenencia a un grupo

  20. Clasificación análisisdiscriminante • ¿En qué cosiste? • Detectar las variables que permiten discriminar grupos conocidos a ‘a priori’ • Clasificar nuevos casos dentro de los grupos identificados que tengan mayor probabilidad de contenerlos

  21. Clasificación análisisdiscriminante • En estudios de ecología es útil para detectar qué conjunto de variables tiene mayor capacidad de identificar diferentes poblaciones • Dada una clasificación a priori (obtenida de un conjunto de datos por análisis de conglomerados o algún otro tipo de clasificación), permite asignar nuevos individuos, al grupo al que más se asemejan en su perfil multivariado • Determinar si las variables consideradas son suficientes para discriminar entre grupos de individuos • Generar una función de varias variables (aquellas de mayor peso en la discriminación) que sirven para evaluar la pertenencia de un individuo a uno de los grupos determinados a priori

  22. Clasificación análisisdiscriminante • Ofrece tasas de errores de clasificación que dan una idea de la capacidad predictiva de la función discriminante • Cuando hay dos grupos ----> Una sola ecuación lineal discriminante (un eje canónico) • Cuando hay k grupos ----> hay k-1 funciones discriminantes no correlacionadas (ejes canónicos) • Una Regla de asignación ÓPTIMA es la que minimiza la probabilidad de cometer errores durante el proceso de clasificación

  23. Clasificación análisisdiscriminante Discriminante Lineal • Se realizan supuestos distribucionales (se habla de Probabilidad) • Se pueden usar estadísticos para decidir la entrada o no de una variable • Se requiere el supuesto de normalidad multivariada Violaciones de este supuesto NO son FATALES

  24. Clasificación análisisdiscriminante Función Discriminante Lineal • Asume que los grupos tienen matrices de varianzas y covarianzas iguales • Homogeneidad de estructura de variación y covariación Violaciones de este supuesto NO son FATALES PERO pueden aumentar errores de clasificación

  25. Clasificación análisisdiscriminante • Función en discriminante canónica • Si = Ci +Wi1X1+Wi2X2+ ..... + WipXp • i denota el grupo, X las variables, Si es el valor resultante que se utiliza para la clasificación • ¿Cómo se usa para clasificar casos? • Para un nuevo individuo, usando los valores de sus variables, se calcula un valor para cada variable canónica para ese individuo y se estima la probabilidad de que pertenezca a cada grupo. Se decideasignarlo a aquel grupo con el que presente menor diferencia (mayor probabilidad de parecerse al perfil multivariado que lo caracteriza)

  26. Clasificación análisisdiscriminante • ¿Importa el tamaño de los grupos? • Si, en especial cuando tienen • tamaños muy distintos • Una forma de mejorar la predicción es incorporar probabilidades a priori diferentes para cada grupos, proporcional a los tamaños muestrales, para mejorar la predicción • ¿ Cómo se evalúa la calidad de la regla discriminante? • Tasas de error • Aparente (usando los datos observados) • Validación cruzada (tipo Jackknife) • Con un subconjunto de datos

  27. Clasificación análisisdiscriminante ¿Cómo se interpretan las funciones discriminantes? En función de los coeficientes que presentan en la función lineal discriminante (variables estandarizadas). Mayor magnitud de coeficiente, mayor importancia de la variable en la discriminación 1 2 SLA 0,19 -0,34 LNC -0,39 -0,16 LPC 0,22 1,01 LCC -0,01 -0,56 Tough 0,18 -0,41 SeedWeight -0,37 -0,26 LDMC 1,02 0,41 VegHeigth -1,05 0,39 InfloHeight 1,35 0,67

  28. Clasificación análisisdiscriminante Tasa de error en la elasificación (tasa de error aparente) Tabla de clasificación cruzada Grupo 1 2 3 4 Total Error(%) 1 11 0 0 0 11 0.00 2 0 7 0 0 7 0.00 3 0 1 11 0 12 8.33 4 0 0 0 7 7 0.00 Total 11 8 11 7 37 2.70 Error de clasificación promedio 2.7%

  29. Clasificación análisisdiscriminante Visualización de las diferencias entre tipos funcionales en el espacio generado por los ejes canónicos

  30. Clasificación análisisdiscriminante Ejemplos con software estadístico • Archivos que utilizaremos • Conglomerados uno.IDB2 URL: http://www.infostat.com.ar Cómo citar InfoStat Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W. InfoStatversión 2010. GrupoInfoStat, FCA, Universidad Nacional de Córdoba, Argentina. URL http://www.infostat.com.ar

  31. Clasificación análisisdiscriminante

  32. Clasificación análisisdiscriminante • listo

  33. Clasificación árboles de clasificación y de regresión Objetivos: Son modelos predictivos que están pensados para captar comportamientos no aditivos, a diferencia de los modelos de regresión lineal regresiónlogística Los modelos basados en árboles de regresión y/o clasificación constituyen una alternativa a los modelos lineales aditivos para los problemas de regresión y para modelos logísticos aditivos en problemas de clasificación.

  34. Clasificación árboles de clasificación y de regresión • Un árbol de regresión o de clasificación es un conjunto de muchas reglas determinadas por un procedimiento de ajuste por particiones binarias recursivas, donde un conjunto de datos es sucesivamente particionado • Esta técnica está relacionada con los conglomerados divisivos

  35. Clasificación árboles de clasificación y de regresión Árbol de regresión Variable respuesta continua

  36. Clasificación árboles de clasificación y de regresión Árbol de clasificación Variable respuesta categórica

  37. Clasificación árboles de clasificación y de regresión Ejemplos con software estadístico • Archivos que utilizaremos • ArbolReg y Clas.IDB2 URL: http://www.infostat.com.ar Cómo citar InfoStat Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W. InfoStatversión 2010. GrupoInfoStat, FCA, Universidad Nacional de Córdoba, Argentina. URL http://www.infostat.com.ar

  38. Clasificación • listo

More Related