1 / 28

ANÁLISIS DE CONGLOMERADOS

ANÁLISIS DE CONGLOMERADOS. ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación. ANÁLISIS DE CONGLOMERADOS Objetivos.

creola
Download Presentation

ANÁLISIS DE CONGLOMERADOS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ANÁLISIS DE CONGLOMERADOS

  2. ANÁLISIS DE CONGLOMERADOS Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación

  3. ANÁLISIS DE CONGLOMERADOSObjetivos El objetivo del análisis de conglomerados es agrupar las unidades en subgrupos SIGNIFICATIVOS. A partir de las distancias existentes entre los vectores de las observaciones La idea central es llegar a una organización ende grupos que desplieguen la mayor variación ENTRE ellos y la menor variación DENTRO de ellos. Al final todas las unidades pertenecen aun sólo grupo.

  4. ANÁLISIS DE CONGLOMERADOSAplicaciones en Biología En biología se ha usado mucho sobre todo en taxonomía numérica, pero también en ecología en la llamada Escuela de la clasificación de las comunidades (opuesta a la ordenación), también es muy usado en Biogeografía para determinar las relaciones entre ambientes o zonas. En general en todo proceso que requiera agrupación de unidades a las que se le hayan medido varias variables.

  5. ANÁLISIS DE CONGLOMERADOSDefinición No existe una definición clara de lo que es un conglomerado o Cluster. En inglés se refiere a una agrupación (en ocasiones informe) de unidades que sólo se pueden visualizar en 2D o 3D Un ejemplo típico sería un “Muégano” una bola formada por subunidades adheridas.

  6. ANÁLISIS DE CONGLOMERADOSDefinición Cont. No se imponen restricciones “a priori” ( como lo hace el Análisis Discriminante). Se parte de la base que todas las unidades pueden ser independientes o bien todas las unidades pueden tener algo en común para formar un solo cúmulo.

  7. ANÁLISIS DE CONGLOMERADOS

  8. ANÁLISIS DE CONGLOMERADOSProblemas Por ser tan laxa la definición de un cúmulo existen muchos algoritmos que pretenden resolver e problema sin embargo la mayoría de ellos sólo se aboca a la búsqueda de conglomerado esféricos y es difícil detectar conglomerados no esféricos.

  9. ANÁLISIS DE CONGLOMERADOSProblemas

  10. ANÁLISIS DE CONGLOMERADOSCriterios Hay un sin-número de algoritmos la distancia ENTRE-CLUSTER se puede determinar por las distancia entre centroides Como el objetivo es reducir de n unidades a g grupos donde n>g

  11. ANÁLISIS DE CONGLOMERADOSSimilaridades El análisis de cúmulos esta ligado a las medidas de similaridad (que tan cerca o lejos se encuentran las unidades en el espacio n-dimensional. Cuando se trata de medidas métricas (que siguen la distribución normal) se usan las Medidas de distancia. Mientras que si se cuenta con distancias no- paramétricas los llamados tipos de acercamiento son mejores.

  12. ANÁLISIS DE CONGLOMERADOSMedidas de distancia

  13. ANÁLISIS DE CONGLOMERADOSDistancia Euclidiana Concepto. Ejemplo de dos dimensiones con p= 2 (similar al teorema de Pitágoras)

  14. ANÁLISIS DE CONGLOMERADOSDistancia Euclidiana Concepto. Ejemplo de tres dimensiones con p= 3

  15. ANÁLISIS DE CONGLOMERADOSDistancia de Manhatan . La distancia de Manhatan o distancia de “cuadras” se maneja como una distancia alternativa en la que la distancia se mide como unidades fijas de distancia. Como lo son las cuadras de una ciudad. Este es una medida que se encuentra disponible en el NCSS.

  16. ANÁLISIS DE CONGLOMERADOSVariables Nominales En el caso de la variables nominales o dicotómicas se presentan varios índices, llamados generalmente índices de asociación (estos son las bases de medidas de similaridad de Sorensen o Jacard entre otros).

  17. ANÁLISIS DE CONGLOMERADOSVariables Nominales Specie

  18. ANÁLISIS DE CONGLOMERADOSCoeficientes mas usados.

  19. ANÁLISIS DE CONGLOMERADOSCoeficientes mas usados.

  20. ANÁLISIS DE CONGLOMERADOSTécnicas de asociación Jerárquica Las técnicas jerárquicas desarrollan un fusión sucesiva (o divisiones) de los datos. Una de las principales ventajas es que la asignación de una unidad es irrevocable (una vez que se asocian no tiene otra opción) Métodos aglomerativos proceden desarrollando una serie de fusiones Métodos Divisivos parten de un grupo de objetos y lo van dividiendo poco a poco. Ambos se presentan en forma de un dendrograma (diagrama de árbol)

  21. ANÁLISIS DE CONGLOMERADOSMétodos aglomerativos 1 LIGA SIMPLE (Single Linkage) o VECINO MÁS PRÓXIMO: Este método utiliza la DISTANCIA mínima procede encontrando las dos unidades que poseen la menor distancia. Estas conforman el primer conglomerado (cluster) y trabajan juntos como una sola unidad para los subsiguientes análisis. En el siguiente ciclo dos cosas pueden pasar, que una tercera unidad se una al ciclo o bien que otras dos unidades independientes tengan la menor distancia restante. Este proceso continua hasta que todas las unidades se encuentran en un solo cluster.

  22. ANÁLISIS DE CONGLOMERADOSMétodos aglomerativos 1

  23. ANÁLISIS DE CONGLOMERADOSTécnicas de asociación Jerárquica 1

  24. ANÁLISIS DE CONGLOMERADOSMétodos aglomerativos 2 LIGA COMPLETA (Complete Linkage) o el MÉTODO DEL VECINO MÁS LEJANO: Este método es exactamente lo opuesto del anterior en el sentido que la distancia buscado es la mayor que exista entre un par de unidades. A pesar de que los dendrogramas son similares las distancias pueden cambiar rápidamente.

  25. ANÁLISIS DE CONGLOMERADOSMétodos aglomerativos 2

  26. ANÁLISIS DE CONGLOMERADOSMétodos aglomerativos 3 MÉTODO DE LA LIGA PROMEDIO (Average Linkage) Otro método alternativo a los anteriores es el método promedio. Este algoritmo sigue la misma aproximación excepto que la distancia entre los conglomeraos es definida por el promedio de la distancia entre dos conglomerados.

  27. ANÁLISIS DE CONGLOMERADOSMétodos aglomerativos 4 Método de Ward o de la Suma de cuadrados del Error: Este Método (Desarrollado por Ward(1963) se basa en la pérdida de información resultante de la agrupación de individuos en conglomerados en medida como por el total de la suma de cuadrados a partir de las desviaciones de cada observación a la media del conglomerado al que pertenece. La regla de asignación procede por el incremento en la suma de cuadrados del error inducido por la combinación de cada posible par de cluster. Este valor es usada como una función objetiva.

  28. ANÁLISIS DE CONGLOMERADOSMétodos aglomerativos 4 Cont. El algoritmo desarrollado por Ward es usado como método jerárquico. El proceso de agrupamiento procede de la siguiente manera,. Empieza por considerar K grupos de sujetos , un sujeto por grupo, el primer grupo es formado por la selección de dos de esos K grupos que, cuando se unen, producen el menor desapareamiento en el valor de la función objetiva. Estos K-1 grupos es reexaminados para determinar los siguientes dos de esos K-1 grupos para unirse mientras minimizan el incremento en la función objetiva. Así se repite el proceso hasta tener un sólo grupo. En cada paso se reevalúa función objetiva. Los cambios en esta función es importante para determinar cual es el número de grupos naturales.

More Related