520 likes | 638 Views
ROB DE SALLE. LINNEO. JOE FELSENSTEIN. Métodos “numéricos” son usados frecuentemente por que la mayoría de los datos (caracteres) incluyen evidencia que no implica verdaderas relaciones.
E N D
ROB DE SALLE LINNEO JOE FELSENSTEIN
Métodos “numéricos” son usados frecuentemente por que la mayoría de los datos (caracteres) incluyen evidencia que no implica verdaderas relaciones. • NO deberíamos estar satisfechos con establecer hipótesis filogenéticas, sino que deberíamos establecer la “confianza” en nuestra hipótesis.
Compara algunas medidas en los datos calidad- estructura jerárquica para los datos reales y varias permutaciones de los datos. • Esto permite definir un test estadístico con la hipótesis nula de que los datos reales y los permutados (no informativos filogenéticamente)no se diferencian.
Se espera que nuestros datos estarán estructurados de modo de tener fuertes signos filogenéticos. • Esto se puede evaluar usando pruebas de Aleatorización. • La conducta de nuestros datos son contrastados con datos comparables pero no informativos desde el punto de vista filogenético. Esto es determinado por Aleatorización.
Hillis (1991) propuso que si los caracteres son considerados como generados independientemente y al azar todos los estados tendrían la misma frecuencia. • Por tanto, si los datos tiene una estructura cladística (signos) y son altamente congruentes, deberían mostrar un fuerte sesgo estadístico (g1), una distribución hacia la izquierda de la curva.
722 |## (72) 723 |### (92) 724 |### (101) 725 |### (87) 726 |#### (107) 727 |#### (120) 728 |#### (111) 729 |##### (134) 730 |##### (137) 731 |#### (110) 732 |#### (113) 733 |#### (119) 734 |#### (127) 735 |##### (131) 736 |#### (106) 737 |#### (109) 738 | #### (126) 739 |#### (115) 740 |##### (136) 741 |#### (128) 742 |##### (144) 743 |##### (134) 744 |###### (160) 745 |##### (152) 746 |##### (159) 747 |###### (164) 748 |###### (182) 749 |####### (216) 750 |####### (193) 751 |######## (235) 752 |######## (2 44) 753 |######### (251) 754 |######## (243) 755 |######### (254) 756 |######## (243) 757 |######### (271) 758 |######### (255) 759 |########## (287) 760 |######### (268) 761 |########## (291) 762 |########### (319) 763 |########## (295) 764 |########### ( 314) 765 |########### (312) 766 |########### (331) 767 |########### (325) 768 |############ (347) 769 |########### (333) 770 |############ (361) 771 |############## (400) 772 |############# (386) 773 |############## (420) 774 |############## (399) 775 |### ############ (435) 776 |################# (505) 777 |################# (492) 778 |################## (534) 779 |################## (517) 780 |################## (529) 781 |###################### (637) 782 |##################### (604) 783 |################# ####### (685) 784 |######################## (691) 785 |###################### (644) 786 |######################## (700) 787 |########################## (746) 788 |######################### (713) 789 |########################## (743) 790 |################## ######## (746) 791 |######################### (732) 792 |########################## (764) 793 |############################ (811) 794 |######################### (717) 795 |########################## (762) 796 |######################## (695) 797 |########## ################## (807) 798 |######################## (685) 799 |####################### (660) 800 |######################## (688) 801 |####################### (659) 802 |######################## (693) 803 |######################## (694) 804 |############ ############## (762) 805 |########################## (743) 806 |######################### (737) 807 |########################## (745) 808 |############################ (816) 809 |############################# (838) 810 |############################ (827) 8 11 |########################## (765) 812 |############################## (859) 813 |########################## (763) 814 |########################### (773) 815 |############################# (835) 816 |############################ (802) 817 |############## DATOS PERMUTADOS g1=-0.100478 DATOS REALES Ciliate SSUrDNA g1=-0.951947 ############# (798) 818 |############################# (848) 819 |############################# (847) 820 |############################## (879) 821 |############################ (828) 822 |########################### (784) 823 |########################## ( 757) 824 |########################## (770) 825 |############################ (812) 826 |############################ (819) 827 |############################# (850) 828 |############################## (863) 829 |################################ (934) 830 |# ############################### (919) 831 |################################# (963) 832 |################################### (1021) 833 |###################################### (1113) 834 |####################################### (1143) 835 |################# ####################### (1162) 836 |########################################## (1223) 837 |############################################ (1270) 838 |############################################### (1356) 839 |################################################ (1399) 840 |############################################### (1356) 841 |################################################# (1424) 842 |################################################### (1492) 843 |#################################################### (149 9) 844 |######################################################## (1630) 845 |####################################################### (1594) 846 |######################################################## (1619) 847 |########################################## ################# (1718) 848 |############################################################# (1765) 849 |############################################################## (1793) 850 |################################################################ (1853) 851 | ############################################################## (1800) 852 |############################################################# (1773) 853 |################################################################ (1861) 854 |############################## ################################## (1853) Es medido con G1 en PAUP. Solo hasta 8 taxa. 855 |############################################################## (1805) 856 |########################################################### (1722) 857 |######################################################### (165 1) 858 |####################################################### (1613) 859 |###################################################### (1559) 860 |################################################### (1482) 861 |################################################# ## (1479) 862 |################################################ (1409) 863 |############################################## (1349) 864 |################################################ (1407) 865 |################################################### (1487) 8 66 |################################################## (1445) 867 |##################################################### (1550) 868 |################################################### (1482) 869 |###################################################### (157 3) 870 |####################################################### (1587) 871 |#################################################### (1525) 872 |###################################################### (1576) 873 |################################################ ###### (1572) 874 |#################################################### (1499) 875 |################################################### (1480) 876 |############################################### (1370) 877 |############################################ (12 89) 878 |########################################## (1228) 879 |######################################## (1165) 880 |################################### (1006) 881 |################################## (992) 882 |############################### (890) 883 |## ######################### (792) 884 |######################## (693) 885 |###################### (650) 886 |##################### (606) 887 |################ (469) 888 |############## (415) 889 |########### (314) 890 |######## (232) 891 |####### (213) 892 | ##### (133) 893 |#### (114) 894 |### (75) 895 |## (60) 896 |## (52) 897 |# (17) 898 |# (16) 899 | (6) 900 | (4) Frecuencia de largos de arbol Frecuencia de largos de arbol
Estudios con aleatorización ( y datos filogenéticamente no informativos) muestran que los datos tienden a ser normales. Arbol mas corto NUMERO DE ARBOLES LARGO DEL ARBOL • En contraste, datos filogenéticamente informativos se espera que tengan una distribución fuertemente sesgada hacia arboles cortos y con pocos arboles cerca del más corto. Arbol mas corto NUMERO DE ARBOLES LARGO DEL ARBOL
El test Permutation Tail Probability (PTP) corresponde a la proporción de los datos aleatorios (permutado más original) que llega a cladogramas igual o más cortos que los producidos por los datos originales.
Random permutation destruye cualquier correlación entre caracteres . • Se mantiene el número de taxa, caracteres y estados del caracter para cada caracter. CARACTERES ‘ T A X A ’ Datos originales con Estructuración filogenética 1 2 3 4 5 6 7 8 R - P R P R P R P R P A - E A E A E A E A E N - R N R N R N R N R Datos permutados aleatoriamente… correlación entre caracteres Debida al azar. Estados del caracter son permutados y ubicados en el ingroup de modo que la proporción de estados se mantiene (1:3) D - M D M D M D M D M O - U O U O U O U O U M - T M T M T M T M T L - E L E L E L E L E Y - D Y D Y D Y D Y D CARACTERES ‘ T A X A ’ 1 2 3 4 5 6 7 8 R - P N U D E R T O U A - E R E A P L E A D N - R M R M M A D N P D - M L T R E Y M D R O - U D E Y U D E Y M M - T O M O T O U L T L - E Y D N D M P M E Y - D A P L R N R R E
Se objeta la hipótesis nula si, por ej., más del 5% de las permutaciones al azar son mejores que los datos reales. FALLA TEST 95% cutoff PASA Frecuencia TEST OBJETA H. NULA Medida de calidad de los datos (ej. largo del arbol) BUENO MALO
Medidas de calidad de los datos incluyen: • 1. Largo del Arbol más parsimonioso (PAUP*) • 2. Sesgo de la distribución del largo de los árboles. (PAUP*)
Ciliados SSUrDNA Min = 430 Max = 927 1 AMP L = 618 CI = 0.696 RI = 0.714 PTP = 0.01 convención PC-PTP = 0.001 Significativamente distinto al azar Datos reales 3 AMPs L = 792 CI = 0.543 RI = 0.272 PTP = 0.68 PC-PTP = 0.737 No distinto del azar Datos permutados Consenso Estricto
Problema relacionado con los tipos de búsquedas difícilmente pueden ser exhaustivas para set de datos grandes (muchas OTUs y/o caracteres). CONSUMO ELEVADO TIEMPO COMPUTACIONAL Búsqueda heurística
Bryant (1992) argumenta que este test es problemático pues se sustenta en una premisa falsa…covariación al azar es contrario a los principios cladísticos….caracteres covarían de modo jerárquico.
Bootstrapping es una técnica estadística y un método intensivo computacionalmente que usa un muestreo aleatorio.
Caracteres son remuestreados con reemplazo creando muchas réplicas del set de datos (pseudoréplicas). • Cada pseudoreplica es analizada (e.g. com MP, NJ, ML) • Acuerdo entre los arboles resultantes es resumido en un arbol de consenso de mayoría. • Frecuencia en cada grupo es una medida de soporte.
Ciliados SSUrDNA - parsimonia bootstrap Tabla de Partición Ochromonas (1) 123456789 Freq ----------------- .**...... 100.00 ...**.... 100.00 .....**.. 100.00 ...****.. 100.00 ...****** 95.50 .......** 84.33 ...****.* 11.83 ...*****. 3.83 .*******. 2.50 .**....*. 1.00 .**.....* 1.00 Symbiodinium (2) 100 Prorocentrum (3) Euplotes (8) 84 Tetrahymena (9) 96 Loxodes (4) 100 Tracheloraphis (5) 100 Spirostomum (6) 100 Consenso de Mayoría Gruberia (7)
Tabla de Partición 123456789 Freq ----------------- .*****.** 71.17 ..**..... 58.87 ....*..*. 26.43 .*......* 25.67 .***.*.** 23.83 ...*...*. 21.00 .*..**.** 18.50 .....*..* 16.00 .*...*..* 15.67 .***....* 13.17 ....**.** 12.67 ....**.*. 12.00 ..*...*.. 12.00 .**..*..* 11.00 .*...*... 10.80 .....*.** 10.50 .***..... 10.00 CRITERIO: 85% VALORES BAJOS : QUE SIGNIFICAN? Consenso de Mayoría Jackkniffe : resultados similares
Análisis de Parsimonia : Una manera de establecer soporte para un grupo específico , mirando en arboles levemente menos parsimoniosos. • La diferencia en el largo entre el arbol más corto que incluye el grupo y el más corto que excluye este grupo (los pasos extras requeridos que el grupo desaparezca) es el decay indexo Bremer support
Para calcular BS • Largo del arbol más parsimonioso (AMP) de los datos combinados es medido (L comb A+B) • Arboles restringidos (constrainst trees) son producidos con sólo el nodo de interés presente (ej. nodo X). • Una búsqueda usando constraints trees es realizada búscando el AMP…pero sin nodo X, es realizada para los datos combinados.
Bremer Support (BS) d) El largo del AMP es medido (L nodoX A+B). e) El soporte para el nodo X a partir de los datos combinados es: BSnodoX A+B = L nodoX A+B - L comb A+B
Ciliados SSUrDNA Ochromonas Datos permutados Symbiodinium Prorocentrum Loxodes Ochromonas Tracheloraphis +27 Symbiodinium +1 Spirostomum Prorocentrum +1 Gruberia +45 Loxodes +3 Euplotes Tetrahymena Tetrahymena Tracheloraphis +8 +15 Spirostomum +10 Euplotes +7 Gruberia Problema: dato no escalable pues depende de la matriz de datos ( no va de 0-100)..valores pueden variar. Autodecay
Baker & DeSalle (1997) publican una variación a este procedimiento : PBS (Partionated Bremer Support): forzar a la búsqueda al AMP y el mejor “constraint tree”….Pero separando cada partición (primero se hace en A y luego en B) Valores : positivos partición soporta el nodo en los datos combinados sobre el AMP sin el nodo. negativos partición soporta un arbol que carece del nodo en cuestión en los datos combinados. BSnodo X A+B= PBS nodoX A-PBS nodo X B
BS PBS (mol) PBS (morf)
DATOS MOLECULARES DATOS MORFOLOGICOS A) B) COMBINACION B. chilensis B. spinulosus B. atacamensis B. rubropunctatus B. papillosus
Análisis simultáneo: sistemáticos argumentan que todos los caracteres deben ser analizados en una sola matriz de datos (Kluge, 1989). • Congruencia taxonómica: Prefieren analizar los datos separadamente y luego mediante el método de consenso combinar los cladogramas resultantes (Miyamoto & Fitch, 1995).
El sentido de la cladística es maximizar el poder explicativo. • Su objetivo es obtener un cladograma que presente máxima informatividad. • Deben usarse todos los caracteres en un solo análisis (pero: heterogeneidad de caracteres y tasas de evolución (signos filogenéticos); caracteres aportan con distinto número (moleculares son un orden de magnitud mayor que los morfológicos). Arnold Kluge
Existen diferentes tipos de datos,éstos que reflejan procesos evolutivos distintos (particiones). • Ejemplos: DNA nuclear y mitocondrial (herencia biparental versus materna; morfología larval y de adultos). Fitch W.
Asegurese al trabajar con ADN que los genes a usar: a) no estén genéticamente ligados. b) en sus productos génicos no hayan interacciones ni que regulen la expresión de un gen en otro proceso. c) no especifican la misma función. d) no interactúan en la misma ruta fisiológica.
Algunos autores se benefician de la existencia de ambas aproximaciones para analizar sus datos.(DEPENDE DEL SET DE DATOS). • ¿Cual es el criterio para elegir si combinar todos los datos en una sola matriz o analizarlos separadamente? CRITERIO ESTADISTICO?
Si se tienen distintos arboles para distintas particiones se puede deber a: • a) Las particiones son distintas entre sí, luego no son compatibles una con otra. • b) Las particiones son homogéneas pero dan distinta topologías por efecto de azar.
PARTICIÓN 1 PARTICIÓN 2 A) B) Largo: 350 pasos COMBINACION Largo: 35 pasos B. chilensis Generalizando B. spinulosus B. atacamensis B. rubropunctatus LComb>> ΣLsolos B. papillosus Largo: 450
Para evaluar estas posibilidades : 1) Se hacen nuevas particiones al azar dentro de cada partición. 2) Se realiza una búsqueda por el mejor árbol en cada una de las nuevas particiones y se suma el largo de los arboles resultantes en cada árbol (se repite muchas veces). 3) Con esto obtenemos la distribución del largo de todos los arboles de las repeticiones y luego se ve la distribución de las particiones que debería ser homogénea.
Se centra en la medición de la heterogeneidad entre las distintas matrices de datos. • Aplica criterios estadísticos para decidir entre combinar o no las particiones. J. Huelsenbeck
Proponen una prueba de máxima verosimilitud (the likelihood heterogeneity test). • Compara las probabilidades obtenidas bajo el supuesto de que la misma filogenia subyace a todos las matrices de datos con la probabilidad obtenida cuando este supuesto es relajado. • La probabilidad σ, es calculada 2(lnL1-lnL0), donde L0 corresponde a asumir que el mismo arbol subyace a las mismas particiones y L1es la probabilidad cuando distintos arboles subyacen en cada partición. La distribución de σ es obtenida usando simulaciones. Nuevas particiones del mismo tamaño a las originales son simuladas bajo la hipótesis nula.