420 likes | 747 Views
Curso-Taller Datos multivariados: Análisis Clásicos y Nuevas Tecnologías. Tema 3: Clasificación. Clasificaci ón análisis de conglomerados. ¿Qué es el análisis de conglomerados?.
E N D
Curso-Taller Datos multivariados: Análisis Clásicos y Nuevas Tecnologías Tema 3: Clasificación
Clasificación análisis de conglomerados ¿Qué es el análisis de conglomerados? Técnicas o algoritmos matemáticos que tienen por objeto la búsqueda de grupos de individuos de similares características, o de grupos de variables con comportamiento similar ¿Qué hace el análisis de conglomerados? Clasificar a la muestra de individuos en grupos lo más homogéneos posible con base en las variables observadas • ¿Para qué sirve? • Definir de tipos funcionales como base para una clasificación • Definir tipologías de productores • Identificar ambientes con características particulares • …..
Clasificación análisis de conglomerados • Objetivo: • El agrupamiento debe ser tal que individuos dentro de un grupo sean más parecidos entre sí, que aquellos que pertenecen a grupos distintos Distancia entre individuos (tipo de variables): La matriz de datos n x p es transformada en una matriz de proximidad o de disimilitud: • (n x n) que mide la semejanza o la distancia entre pares de individuos i y i’ para i,i’ = 1,..., n (p x p) que mide la semejanza o la distancia entre pares de variables j y j’ para j,j’ = 1,..., p
Clasificación análisis de conglomerados En el análisis de conglomerados noes necesarioconocer “a priori” el grupo al que pertenece cada individuo. A diferencia del análisis discriminante que tiene como requisito conocer un agrupamiento a priori • Dos decisiones a tomar: • elección de la medida de distancia • elección del algoritmopara agrupar • El algoritmo indica cómo se formarán los grupos a partir de una matriz de distancias
Clasificación análisis de conglomerados • Distancias: • Variables cuantitativas: • Se usan Medidas de distancia basadas en el espaciamiento de los puntos representados en un espacio multidimensional (ej. distancia Euclídea o Pitagórica, Mahalanobis … ) • Variables cualitativas: • Se usan medidas de asociación. • Distancias definidas como 1-medida de asociación. Medidas de asociación basadas en el número de concordancias y discordancias entre objetos sobre todas las dimensiones observadas
Clasificación análisis de conglomerados Medidas de similaridad
Clasificación análisis de conglomerados Obtención de medidas de distancia a partir de similitudes
Clasificación análisis de conglomerados Distancias cuando hay mezclas de variables No existe una metodología única para este problema, diferentes autores lo enfocan de distintas formas Una solución es combinar una distancia que vaya entre 0 y 1 para variables cuantitativas y otra que tome valores 0 o 1 para variables cualitativas Usar distancia a partir de la similaridad de Gower Usar coordenadas principales para resumir la información de variables binarias obtenidas a partir de rasgos cualitativos y tratar a todas como cuantitativas
Clasificación análisis de conglomerados Algoritmos: Métodos no jerárquicos: producen una única partición Métodos jerárquicos: producen particiones jerárquicas • Aglomerativos (comienzan con tantos grupos como individuos existan y terminan con un solo grupo final) • Disociativos(comienzan con un solo grupo y en forma descendente particionan los grupos ya formados hasta que cada grupo tiene un solo individuo)
Clasificación análisis de conglomerados Métodos Jerárquicos Vecino más próximo o distancias mínimas Los grupos se unen en base a la distancia entre los dos miembros más cercanos A B C D E
Clasificación análisis de conglomerados Algoritmos de agrupamiento Vecino más lejano o distancias máximas: La distancia entre conglomerados es la del par de objetos más distantes Encadenamiento Promedio (o de la media de distancias): Para obtener la distancia entre dos conglomerados, se promedian todas las distancias entre pares de objetos donde un miembro del par pertenece a uno de los conglomerados y el otro miembro pertenece al otro conglomerado Media ponderada Centroide ( distancia entre medias de variables): Toma el promedio de todos los objetos en un conglomerado (centroide) para representar al conglomerado y medir distancias entre objetos y el conglomerado, o entre conglomerados Mediana Método de Ward (minimiza los errores): Promedia todas las distancias entre los pares de objetos en diferentes grupos, ajustando por las covarianzas
Clasificación análisis de conglomerados Métodos de medición de distancias entre conglomerados Vecino mas cercano Vecino mas lejano Centroide (enlace múltiple) Promedio (enlace múltiple) Encadenamiento promedio (UPGMA) Mínima varianza WARD-AnaVa Encadenamiento simple Encadenamiento completo
Clasificación análisis de conglomerados ¿Como decidir? Coeficiente de correlación cofenético Entre la métrica del árbol jerárquico y la matriz original Mas alto es mejor Vecino mas cercano Vecino mas lejano Centroide (enlace múltiple) Promedio (enlace múltiple) Encadenamiento promedio (UPGMA) Mínima varianza WARD-AnaVa Encadenamiento simple Encadenamiento completo
Clasificación análisis de conglomerados Técnicas de clasificación jerárquicas: Dendrograma
Clasificación análisis de conglomerados Ejemplos con software estadístico • Archivos que utilizaremos • Conglomerado uno.IDB2 • Conglomerado dos.IDB2 URL: http://www.infostat.com.ar Cómo citar InfoStat Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W. InfoStatversión 2010. GrupoInfoStat, FCA, Universidad Nacional de Córdoba, Argentina. URL http://www.infostat.com.ar
Clasificación análisis de conglomerados Resumir repeticiones Algorítmo Inspeccionar matriz de similaridad Distancia Estandarizar variables y # de conglomerados Agrupar individuos o variables
Clasificación análisis de conglomerados Comentarios Finales • Es una técnica exploratoria. No se necesitan supuestos de agrupamiento “a priori”, ni de otro tipo • ¿Qué hacer si hay diferentes escalas y diferentes magnitudes entre las variables? • Si tienen diferente escalas elegir una medida de distancia adecuada • a mezcla de variables • Si tienen diferente magnitud puede convenir estandarizar • antes de agrupar • ¿Por cuántos grupos o “clusters” decidirse? • El criterio a usar depende de la medida de distancia • usadas y de la finalidad del agrupamiento
Clasificación análisis de conglomerados • listo
Clasificación análisisdiscriminante ANÁLISIS DISCRIMINANT (análisis confirmatorio) Objetivos: Asignar nuevos individuos a grupos preexistentes usando una regla de clasificación Discriminar entre grupos conocidos a priori Construye una regla para predecir la probabilidad de pertenencia a un grupo
Clasificación análisisdiscriminante • ¿En qué cosiste? • Detectar las variables que permiten discriminar grupos conocidos a ‘a priori’ • Clasificar nuevos casos dentro de los grupos identificados que tengan mayor probabilidad de contenerlos
Clasificación análisisdiscriminante • En estudios de ecología es útil para detectar qué conjunto de variables tiene mayor capacidad de identificar diferentes poblaciones • Dada una clasificación a priori (obtenida de un conjunto de datos por análisis de conglomerados o algún otro tipo de clasificación), permite asignar nuevos individuos, al grupo al que más se asemejan en su perfil multivariado • Determinar si las variables consideradas son suficientes para discriminar entre grupos de individuos • Generar una función de varias variables (aquellas de mayor peso en la discriminación) que sirven para evaluar la pertenencia de un individuo a uno de los grupos determinados a priori
Clasificación análisisdiscriminante • Ofrece tasas de errores de clasificación que dan una idea de la capacidad predictiva de la función discriminante • Cuando hay dos grupos ----> Una sola ecuación lineal discriminante (un eje canónico) • Cuando hay k grupos ----> hay k-1 funciones discriminantes no correlacionadas (ejes canónicos) • Una Regla de asignación ÓPTIMA es la que minimiza la probabilidad de cometer errores durante el proceso de clasificación
Clasificación análisisdiscriminante Discriminante Lineal • Se realizan supuestos distribucionales (se habla de Probabilidad) • Se pueden usar estadísticos para decidir la entrada o no de una variable • Se requiere el supuesto de normalidad multivariada Violaciones de este supuesto NO son FATALES
Clasificación análisisdiscriminante Función Discriminante Lineal • Asume que los grupos tienen matrices de varianzas y covarianzas iguales • Homogeneidad de estructura de variación y covariación Violaciones de este supuesto NO son FATALES PERO pueden aumentar errores de clasificación
Clasificación análisisdiscriminante • Función en discriminante canónica • Si = Ci +Wi1X1+Wi2X2+ ..... + WipXp • i denota el grupo, X las variables, Si es el valor resultante que se utiliza para la clasificación • ¿Cómo se usa para clasificar casos? • Para un nuevo individuo, usando los valores de sus variables, se calcula un valor para cada variable canónica para ese individuo y se estima la probabilidad de que pertenezca a cada grupo. Se decideasignarlo a aquel grupo con el que presente menor diferencia (mayor probabilidad de parecerse al perfil multivariado que lo caracteriza)
Clasificación análisisdiscriminante • ¿Importa el tamaño de los grupos? • Si, en especial cuando tienen • tamaños muy distintos • Una forma de mejorar la predicción es incorporar probabilidades a priori diferentes para cada grupos, proporcional a los tamaños muestrales, para mejorar la predicción • ¿ Cómo se evalúa la calidad de la regla discriminante? • Tasas de error • Aparente (usando los datos observados) • Validación cruzada (tipo Jackknife) • Con un subconjunto de datos
Clasificación análisisdiscriminante ¿Cómo se interpretan las funciones discriminantes? En función de los coeficientes que presentan en la función lineal discriminante (variables estandarizadas). Mayor magnitud de coeficiente, mayor importancia de la variable en la discriminación 1 2 SLA 0,19 -0,34 LNC -0,39 -0,16 LPC 0,22 1,01 LCC -0,01 -0,56 Tough 0,18 -0,41 SeedWeight -0,37 -0,26 LDMC 1,02 0,41 VegHeigth -1,05 0,39 InfloHeight 1,35 0,67
Clasificación análisisdiscriminante Tasa de error en la elasificación (tasa de error aparente) Tabla de clasificación cruzada Grupo 1 2 3 4 Total Error(%) 1 11 0 0 0 11 0.00 2 0 7 0 0 7 0.00 3 0 1 11 0 12 8.33 4 0 0 0 7 7 0.00 Total 11 8 11 7 37 2.70 Error de clasificación promedio 2.7%
Clasificación análisisdiscriminante Visualización de las diferencias entre tipos funcionales en el espacio generado por los ejes canónicos
Clasificación análisisdiscriminante Ejemplos con software estadístico • Archivos que utilizaremos • Conglomerados uno.IDB2 URL: http://www.infostat.com.ar Cómo citar InfoStat Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W. InfoStatversión 2010. GrupoInfoStat, FCA, Universidad Nacional de Córdoba, Argentina. URL http://www.infostat.com.ar
Clasificación análisisdiscriminante
Clasificación análisisdiscriminante • listo
Clasificación árboles de clasificación y de regresión Objetivos: Son modelos predictivos que están pensados para captar comportamientos no aditivos, a diferencia de los modelos de regresión lineal regresiónlogística Los modelos basados en árboles de regresión y/o clasificación constituyen una alternativa a los modelos lineales aditivos para los problemas de regresión y para modelos logísticos aditivos en problemas de clasificación.
Clasificación árboles de clasificación y de regresión • Un árbol de regresión o de clasificación es un conjunto de muchas reglas determinadas por un procedimiento de ajuste por particiones binarias recursivas, donde un conjunto de datos es sucesivamente particionado • Esta técnica está relacionada con los conglomerados divisivos
Clasificación árboles de clasificación y de regresión Árbol de regresión Variable respuesta continua
Clasificación árboles de clasificación y de regresión Árbol de clasificación Variable respuesta categórica
Clasificación árboles de clasificación y de regresión Ejemplos con software estadístico • Archivos que utilizaremos • ArbolReg y Clas.IDB2 URL: http://www.infostat.com.ar Cómo citar InfoStat Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W. InfoStatversión 2010. GrupoInfoStat, FCA, Universidad Nacional de Córdoba, Argentina. URL http://www.infostat.com.ar
Clasificación • listo