310 likes | 574 Views
Definición de grupos: clasificación. Capítulos 10 y 11 de McCune y Grace 2002. Clasificar. Proceso natural humano para interpretar el mundo Pero estamos acostumbrados a sólo observar pocas dimensiones
E N D
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002
Clasificar • Proceso natural humano para interpretar el mundo • Pero estamos acostumbrados a sólo observar pocas dimensiones • Más complejo cuando intentamos clasificar objetos de muchas dimensiones como los datos de composición
Opciones generales • Clasificación jerárquica o no-jerárquica • Clasificación politética o monotética • Clasificación aglomerativa o divisiva
Clasificación jerárquica aglomerativa • Pasos: • Calcular la matriz de distancias (o similaridades) • Unir 2 elementos de acuerdo a algún criterio de distancia mínima • Combinar los atributos de las entidades en ambos grupos • Unir los próximos 2 grupos, etc. • Los resultados se pueden presentar en un dendrograma
Ejemplo Método de enlace sencillo (o de vecino más cercano)
Matriz de similaridades
Dendrogramas • La escala en el dendrograma se puede expresar por: • Similaridad según la medida utilizada • Función objetiva: • % de información restante:
¿Dónde podar el dendrograma? • Los criterios dependen de los objetivos • Homogeneidad dentro de grupos • Número de grupos vs número de elementos • Pocos grupos pueden ser muy heterogéneos • Muchos grupos derrotan el propósito de clasificar
Tres métodos de enlace recomendados para datos de comunidades UPGMA, Ward y Beta flexible
¿UPGMA, Ward o Beta flexible? • UPGMA: • Bastante conservador de espacio • Pero tiende al encadenamiento • Ward: • Conservador de espacio • Pero incompatible con distancias por proporción • Beta flexible: • Encadenamiento es alto cuando beta se acerca a +1 • Contrae el espacio cuando beta se acerca a -1 • Resultados más aceptables cuando beta ~ -0.25
Ventajas y desventajas de clasificación jerárquica aglomerativa • El resultado en multiniveles puede sugerir relaciones entre grupos • Puede haber agrupaciones incorrectas porque las fusiones subsiguientes dependerán de las anteriores. • Para datos bien heterogéneos puede ser conveniente subdividir en grupos más manejables y luego analizar con ordenaciones.
Métodos no jerárquicos • Este tipo de clasificación asigna las unidades en un número de grupos que uno decida inicialmente. • Bien útil cuando el conjunto de datos es bien grande.
Evaluación de la calidad de la clasificación • Grado de encadenamiento • Interpretabilidad • Comparación con algún atributo independiente
Interpretabilidad • ¿Hace sentido el dendrograma? • ¿Son los grupos el resultado de algún proceso biológico interesante?
Comparar con atributo independiente • ¿Son los miembros de un grupo similares según los valores de alguna variable (no incluida en los datos analizados) pero distintos en esa variable a los miembros de otros grupos?
¿Qué informar? • Medida de distancia utilizada • Método de enlazar • Si se buscaron elementos clasificados erróneamente, cómo se hizo y cómo se corrigieron. • Dendrograma y cuál medida se utilizó en la escala • Criterios para podar el dendrograma (mencionar la cantidad de información retenida a ese nivel).
Ejercicio • Generar una clasificación manualmente por enlace sencillo con los datos de Oak_t_6x5r • Comparar con UPGMA, Ward y Beta flexible