1 / 52

ROB DE SALLE

ROB DE SALLE. LINNEO. JOE FELSENSTEIN. Métodos “numéricos” son usados frecuentemente por que la mayoría de los datos (caracteres) incluyen evidencia que no implica verdaderas relaciones.

shona
Download Presentation

ROB DE SALLE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ROB DE SALLE LINNEO JOE FELSENSTEIN

  2. Métodos “numéricos” son usados frecuentemente por que la mayoría de los datos (caracteres) incluyen evidencia que no implica verdaderas relaciones. • NO deberíamos estar satisfechos con establecer hipótesis filogenéticas, sino que deberíamos establecer la “confianza” en nuestra hipótesis.

  3. Compara algunas medidas en los datos calidad- estructura jerárquica para los datos reales y varias permutaciones de los datos. • Esto permite definir un test estadístico con la hipótesis nula de que los datos reales y los permutados (no informativos filogenéticamente)no se diferencian.

  4. Se espera que nuestros datos estarán estructurados de modo de tener fuertes signos filogenéticos. • Esto se puede evaluar usando pruebas de Aleatorización. • La conducta de nuestros datos son contrastados con datos comparables pero no informativos desde el punto de vista filogenético. Esto es determinado por Aleatorización.

  5. Hillis (1991) propuso que si los caracteres son considerados como generados independientemente y al azar todos los estados tendrían la misma frecuencia. • Por tanto, si los datos tiene una estructura cladística (signos) y son altamente congruentes, deberían mostrar un fuerte sesgo estadístico (g1), una distribución hacia la izquierda de la curva.

  6. 722 |## (72) 723 |### (92) 724 |### (101) 725 |### (87) 726 |#### (107) 727 |#### (120) 728 |#### (111) 729 |##### (134) 730 |##### (137) 731 |#### (110) 732 |#### (113) 733 |#### (119) 734 |#### (127) 735 |##### (131) 736 |#### (106) 737 |#### (109) 738 | #### (126) 739 |#### (115) 740 |##### (136) 741 |#### (128) 742 |##### (144) 743 |##### (134) 744 |###### (160) 745 |##### (152) 746 |##### (159) 747 |###### (164) 748 |###### (182) 749 |####### (216) 750 |####### (193) 751 |######## (235) 752 |######## (2 44) 753 |######### (251) 754 |######## (243) 755 |######### (254) 756 |######## (243) 757 |######### (271) 758 |######### (255) 759 |########## (287) 760 |######### (268) 761 |########## (291) 762 |########### (319) 763 |########## (295) 764 |########### ( 314) 765 |########### (312) 766 |########### (331) 767 |########### (325) 768 |############ (347) 769 |########### (333) 770 |############ (361) 771 |############## (400) 772 |############# (386) 773 |############## (420) 774 |############## (399) 775 |### ############ (435) 776 |################# (505) 777 |################# (492) 778 |################## (534) 779 |################## (517) 780 |################## (529) 781 |###################### (637) 782 |##################### (604) 783 |################# ####### (685) 784 |######################## (691) 785 |###################### (644) 786 |######################## (700) 787 |########################## (746) 788 |######################### (713) 789 |########################## (743) 790 |################## ######## (746) 791 |######################### (732) 792 |########################## (764) 793 |############################ (811) 794 |######################### (717) 795 |########################## (762) 796 |######################## (695) 797 |########## ################## (807) 798 |######################## (685) 799 |####################### (660) 800 |######################## (688) 801 |####################### (659) 802 |######################## (693) 803 |######################## (694) 804 |############ ############## (762) 805 |########################## (743) 806 |######################### (737) 807 |########################## (745) 808 |############################ (816) 809 |############################# (838) 810 |############################ (827) 8 11 |########################## (765) 812 |############################## (859) 813 |########################## (763) 814 |########################### (773) 815 |############################# (835) 816 |############################ (802) 817 |############## DATOS PERMUTADOS g1=-0.100478 DATOS REALES Ciliate SSUrDNA g1=-0.951947 ############# (798) 818 |############################# (848) 819 |############################# (847) 820 |############################## (879) 821 |############################ (828) 822 |########################### (784) 823 |########################## ( 757) 824 |########################## (770) 825 |############################ (812) 826 |############################ (819) 827 |############################# (850) 828 |############################## (863) 829 |################################ (934) 830 |# ############################### (919) 831 |################################# (963) 832 |################################### (1021) 833 |###################################### (1113) 834 |####################################### (1143) 835 |################# ####################### (1162) 836 |########################################## (1223) 837 |############################################ (1270) 838 |############################################### (1356) 839 |################################################ (1399) 840 |############################################### (1356) 841 |################################################# (1424) 842 |################################################### (1492) 843 |#################################################### (149 9) 844 |######################################################## (1630) 845 |####################################################### (1594) 846 |######################################################## (1619) 847 |########################################## ################# (1718) 848 |############################################################# (1765) 849 |############################################################## (1793) 850 |################################################################ (1853) 851 | ############################################################## (1800) 852 |############################################################# (1773) 853 |################################################################ (1861) 854 |############################## ################################## (1853) Es medido con G1 en PAUP. Solo hasta 8 taxa. 855 |############################################################## (1805) 856 |########################################################### (1722) 857 |######################################################### (165 1) 858 |####################################################### (1613) 859 |###################################################### (1559) 860 |################################################### (1482) 861 |################################################# ## (1479) 862 |################################################ (1409) 863 |############################################## (1349) 864 |################################################ (1407) 865 |################################################### (1487) 8 66 |################################################## (1445) 867 |##################################################### (1550) 868 |################################################### (1482) 869 |###################################################### (157 3) 870 |####################################################### (1587) 871 |#################################################### (1525) 872 |###################################################### (1576) 873 |################################################ ###### (1572) 874 |#################################################### (1499) 875 |################################################### (1480) 876 |############################################### (1370) 877 |############################################ (12 89) 878 |########################################## (1228) 879 |######################################## (1165) 880 |################################### (1006) 881 |################################## (992) 882 |############################### (890) 883 |## ######################### (792) 884 |######################## (693) 885 |###################### (650) 886 |##################### (606) 887 |################ (469) 888 |############## (415) 889 |########### (314) 890 |######## (232) 891 |####### (213) 892 | ##### (133) 893 |#### (114) 894 |### (75) 895 |## (60) 896 |## (52) 897 |# (17) 898 |# (16) 899 | (6) 900 | (4) Frecuencia de largos de arbol Frecuencia de largos de arbol

  7. Estudios con aleatorización ( y datos filogenéticamente no informativos) muestran que los datos tienden a ser normales. Arbol mas corto NUMERO DE ARBOLES LARGO DEL ARBOL • En contraste, datos filogenéticamente informativos se espera que tengan una distribución fuertemente sesgada hacia arboles cortos y con pocos arboles cerca del más corto. Arbol mas corto NUMERO DE ARBOLES LARGO DEL ARBOL

  8. El test Permutation Tail Probability (PTP) corresponde a la proporción de los datos aleatorios (permutado más original) que llega a cladogramas igual o más cortos que los producidos por los datos originales.

  9. Random permutation destruye cualquier correlación entre caracteres . • Se mantiene el número de taxa, caracteres y estados del caracter para cada caracter. CARACTERES ‘ T A X A ’ Datos originales con Estructuración filogenética 1 2 3 4 5 6 7 8 R - P R P R P R P R P A - E A E A E A E A E N - R N R N R N R N R Datos permutados aleatoriamente… correlación entre caracteres Debida al azar. Estados del caracter son permutados y ubicados en el ingroup de modo que la proporción de estados se mantiene (1:3) D - M D M D M D M D M O - U O U O U O U O U M - T M T M T M T M T L - E L E L E L E L E Y - D Y D Y D Y D Y D CARACTERES ‘ T A X A ’ 1 2 3 4 5 6 7 8 R - P N U D E R T O U A - E R E A P L E A D N - R M R M M A D N P D - M L T R E Y M D R O - U D E Y U D E Y M M - T O M O T O U L T L - E Y D N D M P M E Y - D A P L R N R R E

  10. Se objeta la hipótesis nula si, por ej., más del 5% de las permutaciones al azar son mejores que los datos reales. FALLA TEST 95% cutoff PASA Frecuencia TEST OBJETA H. NULA Medida de calidad de los datos (ej. largo del arbol) BUENO MALO

  11. Medidas de calidad de los datos incluyen: • 1. Largo del Arbol más parsimonioso (PAUP*) • 2. Sesgo de la distribución del largo de los árboles. (PAUP*)

  12. Ciliados SSUrDNA Min = 430 Max = 927 1 AMP L = 618 CI = 0.696 RI = 0.714 PTP = 0.01 convención PC-PTP = 0.001 Significativamente distinto al azar Datos reales 3 AMPs L = 792 CI = 0.543 RI = 0.272 PTP = 0.68 PC-PTP = 0.737 No distinto del azar Datos permutados Consenso Estricto

  13. Problema relacionado con los tipos de búsquedas difícilmente pueden ser exhaustivas para set de datos grandes (muchas OTUs y/o caracteres). CONSUMO ELEVADO TIEMPO COMPUTACIONAL Búsqueda heurística

  14. Bryant (1992) argumenta que este test es problemático pues se sustenta en una premisa falsa…covariación al azar es contrario a los principios cladísticos….caracteres covarían de modo jerárquico.

  15. JOE FELSENSTEIN

  16. Bootstrapping es una técnica estadística y un método intensivo computacionalmente que usa un muestreo aleatorio.

  17. Caracteres son remuestreados con reemplazo creando muchas réplicas del set de datos (pseudoréplicas). • Cada pseudoreplica es analizada (e.g. com MP, NJ, ML) • Acuerdo entre los arboles resultantes es resumido en un arbol de consenso de mayoría. • Frecuencia en cada grupo es una medida de soporte.

  18. Bootstrapping

  19. Ciliados SSUrDNA - parsimonia bootstrap Tabla de Partición Ochromonas (1) 123456789 Freq ----------------- .**...... 100.00 ...**.... 100.00 .....**.. 100.00 ...****.. 100.00 ...****** 95.50 .......** 84.33 ...****.* 11.83 ...*****. 3.83 .*******. 2.50 .**....*. 1.00 .**.....* 1.00 Symbiodinium (2) 100 Prorocentrum (3) Euplotes (8) 84 Tetrahymena (9) 96 Loxodes (4) 100 Tracheloraphis (5) 100 Spirostomum (6) 100 Consenso de Mayoría Gruberia (7)

  20. Tabla de Partición 123456789 Freq ----------------- .*****.** 71.17 ..**..... 58.87 ....*..*. 26.43 .*......* 25.67 .***.*.** 23.83 ...*...*. 21.00 .*..**.** 18.50 .....*..* 16.00 .*...*..* 15.67 .***....* 13.17 ....**.** 12.67 ....**.*. 12.00 ..*...*.. 12.00 .**..*..* 11.00 .*...*... 10.80 .....*.** 10.50 .***..... 10.00 CRITERIO: 85% VALORES BAJOS : QUE SIGNIFICAN? Consenso de Mayoría Jackkniffe : resultados similares

  21. BIRGITTA BREMER

  22. Análisis de Parsimonia : Una manera de establecer soporte para un grupo específico , mirando en arboles levemente menos parsimoniosos. • La diferencia en el largo entre el arbol más corto que incluye el grupo y el más corto que excluye este grupo (los pasos extras requeridos que el grupo desaparezca) es el decay indexo Bremer support

  23. Para calcular BS • Largo del arbol más parsimonioso (AMP) de los datos combinados es medido (L comb A+B) • Arboles restringidos (constrainst trees) son producidos con sólo el nodo de interés presente (ej. nodo X). • Una búsqueda usando constraints trees es realizada búscando el AMP…pero sin nodo X, es realizada para los datos combinados.

  24. Bremer Support (BS) d) El largo del AMP es medido (L nodoX A+B). e) El soporte para el nodo X a partir de los datos combinados es: BSnodoX A+B = L nodoX A+B - L comb A+B

  25. Ciliados SSUrDNA Ochromonas Datos permutados Symbiodinium Prorocentrum Loxodes Ochromonas Tracheloraphis +27 Symbiodinium +1 Spirostomum Prorocentrum +1 Gruberia +45 Loxodes +3 Euplotes Tetrahymena Tetrahymena Tracheloraphis +8 +15 Spirostomum +10 Euplotes +7 Gruberia Problema: dato no escalable pues depende de la matriz de datos ( no va de 0-100)..valores pueden variar. Autodecay

  26. Baker & DeSalle (1997) publican una variación a este procedimiento : PBS (Partionated Bremer Support): forzar a la búsqueda al AMP y el mejor “constraint tree”….Pero separando cada partición (primero se hace en A y luego en B) Valores : positivos partición soporta el nodo en los datos combinados sobre el AMP sin el nodo. negativos partición soporta un arbol que carece del nodo en cuestión en los datos combinados. BSnodo X A+B= PBS nodoX A-PBS nodo X B

  27. BS PBS (mol) PBS (morf)

  28. Problema no resuelto…..

  29. DATOS MOLECULARES DATOS MORFOLOGICOS A) B) COMBINACION B. chilensis B. spinulosus B. atacamensis B. rubropunctatus B. papillosus

  30. Análisis simultáneo: sistemáticos argumentan que todos los caracteres deben ser analizados en una sola matriz de datos (Kluge, 1989). • Congruencia taxonómica: Prefieren analizar los datos separadamente y luego mediante el método de consenso combinar los cladogramas resultantes (Miyamoto & Fitch, 1995).

  31. El sentido de la cladística es maximizar el poder explicativo. • Su objetivo es obtener un cladograma que presente máxima informatividad. • Deben usarse todos los caracteres en un solo análisis (pero: heterogeneidad de caracteres y tasas de evolución (signos filogenéticos); caracteres aportan con distinto número (moleculares son un orden de magnitud mayor que los morfológicos). Arnold Kluge

  32. Existen diferentes tipos de datos,éstos que reflejan procesos evolutivos distintos (particiones). • Ejemplos: DNA nuclear y mitocondrial (herencia biparental versus materna; morfología larval y de adultos). Fitch W.

  33. Asegurese al trabajar con ADN que los genes a usar: a) no estén genéticamente ligados. b) en sus productos génicos no hayan interacciones ni que regulen la expresión de un gen en otro proceso. c) no especifican la misma función. d) no interactúan en la misma ruta fisiológica.

  34. Algunos autores se benefician de la existencia de ambas aproximaciones para analizar sus datos.(DEPENDE DEL SET DE DATOS). • ¿Cual es el criterio para elegir si combinar todos los datos en una sola matriz o analizarlos separadamente? CRITERIO ESTADISTICO?

  35. Si se tienen distintos arboles para distintas particiones se puede deber a: • a) Las particiones son distintas entre sí, luego no son compatibles una con otra. • b) Las particiones son homogéneas pero dan distinta topologías por efecto de azar.

  36. PARTICIÓN 1 PARTICIÓN 2 A) B) Largo: 350 pasos COMBINACION Largo: 35 pasos B. chilensis Generalizando B. spinulosus B. atacamensis B. rubropunctatus LComb>> ΣLsolos B. papillosus Largo: 450

  37. Para evaluar estas posibilidades : 1) Se hacen nuevas particiones al azar dentro de cada partición. 2) Se realiza una búsqueda por el mejor árbol en cada una de las nuevas particiones y se suma el largo de los arboles resultantes en cada árbol (se repite muchas veces). 3) Con esto obtenemos la distribución del largo de todos los arboles de las repeticiones y luego se ve la distribución de las particiones que debería ser homogénea.

  38. Se centra en la medición de la heterogeneidad entre las distintas matrices de datos. • Aplica criterios estadísticos para decidir entre combinar o no las particiones. J. Huelsenbeck

  39. Proponen una prueba de máxima verosimilitud (the likelihood heterogeneity test). • Compara las probabilidades obtenidas bajo el supuesto de que la misma filogenia subyace a todos las matrices de datos con la probabilidad obtenida cuando este supuesto es relajado. • La probabilidad σ, es calculada 2(lnL1-lnL0), donde L0 corresponde a asumir que el mismo arbol subyace a las mismas particiones y L1es la probabilidad cuando distintos arboles subyacen en cada partición. La distribución de σ es obtenida usando simulaciones. Nuevas particiones del mismo tamaño a las originales son simuladas bajo la hipótesis nula.

More Related