350 likes | 702 Views
Taxonomía Numérica. Análisis de Agrupamientos y Componentes Principales. Taxonomía Numérica.
E N D
Taxonomía Numérica Análisis de Agrupamientos y Componentes Principales
Taxonomía Numérica • En biología sistemática la fenética, también conocida como taxonomía numérica, es una técnica cuya finalidad es la clasificación de los organismos basándose en su similitud, generalmente en su morfología, o en cualidades observables, sin tomar en cuenta su filogenia o relación evolutiva. • La fenética ha sido ampliamente sustituida por la cladística. Sin embargo, algunos biólogos continúan utilizando métodos fenéticos, como una aproximación razonable de la filogenia cuando los métodos cladísticos son computacionalmente demasiado complejos.
La taxonomía numérica es una escuela de clasificación surgida como reacción a la sistemática evolutiva. Según sus fundadores, especialmente Sokal y Sneath, la sistemática debe estar exenta de toda teoría, a parte de la teoría de la evolución. Para los fenéticos, la filogenia, en tanto que curso histórico verdadero, es incognoscible. Por tanto, ya que una reconstrucción filogenética es un artefacto meramente hipotético, no puede estar en la base de un sistema que quiere ser objetivo. Se deben tratar los objetos, no los conceptos.
Todo lo que conocemos y podemos esperar conocer es la similitud morfológica. Consecuentemente, los organismos son agrupados sobre la base de su similitud global (overall similarity); se clasifican en el mismo grupo los organismos que tengan la mayor cantidad de caracteres en común, los que son más parecidos. La fenética tiene en cuenta, en teoría, la mayor cantidad de caracteres disponibles, cualquiera que sea su naturaleza, y considera que todos los caracteres tienen el mismo valor.
Dado que el número de especies y de caracteres a estudiar puede ser muy elevado, es imprescindible la ayuda de programas informáticos específicos. El resultado es un dendrograma no enraizado denominado fenograma, en que se establecen las relaciones de parentesco fenético de los organismos estudiados.
Los objetos de estudio (los taxones terminales) pueden ser especies, géneros o cualquier otra categoría taxonómica y reciben el nombre de UTO (unidades taxonómicas operacionales) (en inglés, OTU, operational taxonomic units).
La taxonomía numérica ha sido criticada desde muchos puntos de vista. Ignora deliberadamente las adquisiciones evolutivas; no diferencia entre homología y homoplasia. La estabilidad de las clasificaciones tampoco se consigue mediante los métodos fenéticos ya que la búsqueda de "el máximo número de caracteres" es una operación subjetiva; si nuevos caracteres son hallados, las distancias cambiarán y paralelamente cambiará la clasificación previa. • Este método de clasificación es poco utilizado en la actualidad. Puede ser, no obstante, útil en el estudio de organismos como bacterias o virus para los cuales no se dispone de suficientes caracteres polarizados para aplicar los métodos cladísticos.
Análisis de Agrupamiento • Conglomerados jerárquicos Es un procedimiento que permite agrupar las OTUs a través de una variedad de métodos de agrupamiento y medidas de distancia. El análisis de conglomerados jerárquicos se comienza con el cálculo de la matriz de distancias existentes entre cada elemento y todos los restantes de la muestra
A continuación se busca los elementos más próximos (es decir, los dos más similares en términos de distancia) y se agrupan en un conglomerado. De esta manera se van agrupando los elementos en conglomerados cada vez más grandes y más heterogéneos hasta llegar a un conglomerado global
Medidas de Distancia • Uno de los aspectos clave para el análisis de conglomerados es la elección de la medida que se desea utilizar para cuantificar la distancia entre los elementos • El análisis de agrupamiento permite elegir entre un gran número de medidas de distancia que se diferencian para el tipo de datos que han sido diseñadas: cuantitativos, categóricos y dicotómicos
Estas medidas también se diferencian por el tipo de distancia evaluada: similaridad o disimilaridad. • Las medidas de similaridad evalúan el grado de parecido o proximidad existente entre dos elementos. Los valores más altos indican mayor parecido o proximidad.
Las medidas de disimilaridad evalúan el grado de diferencia o lejanía existente entre dos elementos. Los valores más altos indican mayor diferencia o lejanía. Cuando dos elementos se encuentran juntos, la distancia es nula.
Medidas para Datos binarios: Las medidas para datos binarios se utilizan con variables dicotómicas, es decir con variables cuyas variables reflejan la presencia o ausencia de la característica medida. La presencia se codifica con 1 y la ausencia con 0.
a se refiere al número de casos que comparten la presencia de ambas características, d se refiere al número de casos que comparten la ausencia de ambas características (concordancias), b y c se refieren al número de casos que presentan una característica y no la otra (discordancias).
Distancia euclídea al cuadrado para datos binarios. Es una medida de disimilaridad. Su valor mínimo es cero pero no tiene máximo: BEUCLID (X,Y) = b + c
Métodos de Agrupamiento • Método de Vinculación por el Vecino más Próximo Este método también llamado de enlace simple o vinculación simple comienza seleccionando y uniendo los dos elementos de la matriz de distancias que se encuentran más próximos.
La distancia de este nuevo conglomerado respecto de los restantes elementos de la matriz se calcula como la menor de las distancias entre cada elemento del conglomerado y el resto de elementos de la matriz. En los pasos sucesivos, la distancia entre dos conglomerados se calcula como la distancia entre sus dos elementos más próximos.
Así, la distancia dAB entre los conglomerados A y B se calcula mediante: dAB = min d(ij) Donde d(ij) es la distancia entre los elementos i y j, el primero perteneciente al conglomerado A y el segundo al de B.
COMPONENTES PRINCIPALES • Este análisis reduce un conjunto numeroso de caracteres mediante un número reducido de variables llamados componentes principales. Estos componentes no están correlacionados entre sí y el número de los componentes depende del número de caracteres.
Cada componente contiene una parte de la variabilidad total de los caracteres. El primer componente es el que contiene mayor variabilidad. De la variabilidad restante, el segundo componente es el que incluye mayor información.
Cada componente tiene la información de todos los caracteres pero en diferentes proporciones. • La contribución individual de un carácter para un componente representa la varianza de ese carácter para el citado componente. La sumatoria de las varianzas de todos los caracteres para un determinado componente principal recibe el nombre de autovalor.
Los autovalores son diferentes para cada componente. El componente con mayor autovalor será el primer componente principal, el que le sigue será el segundo y así sucesivamente. • La suma de los autovalores representa la varianza total de las OTU para los caracteres utilizados; por consiguiente puede establecerse el porcentaje de variación contenido en cada componente principal según su aporte a la misma.
La contribución de cada carácter se expresa con un valor. Cuanto más alto es el valor de esa contribución (sin importar el signo), mayor es el aporte del carácter al componente.