1 / 50

Statistische Tests in der Phylogenie

Statistische Tests in der Phylogenie. Likelihood-Based Tests of Topologies in Phylogenetics Nick Goldman, Jon P. Anderson, Allen G. Rodrigo -Lisha Naduvilezhath. Gliederung. 1. Hintergrund-“wissen“ - Signifikanz-/ Hypothesentest - Bootstrap 2. Verschiedene Tests

andres
Download Presentation

Statistische Tests in der Phylogenie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistische Tests in der Phylogenie Likelihood-Based Tests of Topologies in Phylogenetics Nick Goldman, Jon P. Anderson, Allen G. Rodrigo -Lisha Naduvilezhath

  2. Gliederung 1. Hintergrund-“wissen“ - Signifikanz-/ Hypothesentest - Bootstrap 2. Verschiedene Tests - KH- / SH- / SOWH- Test - Beispiel HIV-1 / Säugetiere 3. Zusammenfassung/ Ausblick

  3. Thema Seq1 : CGGTTCA… Seq2 : AGGTTCA… Seq3 : ATGTTCA… Seq4 : AGGTTCT… Seq5 : CGATTGA… T1/ L1 Gleich gut? LX ist log- Likelihood für TX T2/ L2

  4. Signifikanz-/ Hypothesentest • Statistische Hypothese: Annahme über Wahrscheinlichkeitsverteilung der Grundgesamtheit, die wahr oder falsch sein kann • Nullhypothese (H0): statistische Hypothese, die meist verworfen wird z.B.: Aussage: „Münze präpariert“ Hypothese: Münze fair H0: p= 0,5 für Kopf

  5. Signifikanz-/ Hypothesentest • Alternativhypothese (HA, H1):jede von H0 andere Hypothese (z.B.: p<0,5) • Signifikanztest: Verfahren zum Errechnen, ob beobachtete Daten unter Annahme von H0 signifikant sind • Beobachtete Daten sind signifikant, wenn geneigt H0 abzulehnen

  6. Signifikanz-/ Hypothesentest • Signifikanzlevel/ -niveau/ Irrtumswahrscheinlichkeit (α): maximale WS mit der Hypothese abgelehnt wurde, die akzeptiert werden sollte; oft α=5% oder 1% • P-Wert: WS den beobachteten oder extremeren Wert anzutreffen/ kleinstes α, auf dem H0 abgelehnt wird

  7. Signifikanz-/ Hypothesentest Einseitiger Test Zweiseitiger Test

  8. Bootstrap • Bootstrap- Gedanke: Neu erzeugte Parameter sind genauso weit entfernt vom ML- Schätzer wie ML- vom wahren Parameter. • Nichtparametrischer (NP) Bootstrap: Bootstrap- Stichproben durch Ziehen mit Zurücklegen aus Originaldaten erzeugen • Parametrischer (P) Bootstrap(Monte Carlo Simulation): durch zugrunde gelegte Verteilung für benötigten Parameter Schätzung einsetzen und Bootstrap- Daten simulieren

  9. Bootstrap Site • In der Phylogenie: • Aufgrund der Verteilungsannahme parametrischer Tests abhängiger von zugrunde gelegten Modellen Seq1 : C G G T T C A… Seq2 : A G G T T C A… Seq3 : A T G T T C A… Seq4 : A G G T T C T… Seq5 : C G A T T G A…

  10. Kishino- Hasegawa Test (KH-Test) • Gegeben: Topologien T1 (L1) und T2(L2) • Fragestellung: Unterstützen T1 und T2 die Daten gleichermaßen? H0:E[δ] =0 mit δ= L1 - L2 (HA: E[δ] =0) • keineVerteilung für δ gegeben in H0 nichtparametrischer Bootstrap

  11. KH- Test (=Test priNPfcd) • Test Statistik: δ= L1- L2 • Mit NP-Bootstrap Datenmengen i erzeugen • Für jedes i: - Schätzen von Θ1und Θ2für maximale log-likelihoods L1,(i)und L2,(i) - δ(i)=L1,(i)- L2,(i) 4.Zentrieren der δ(i)Δ(i) (Verteilung der Δ(i) ist Schätzung für δ- Verteilung) 5. Zwei-seitiger Test: Fällt δ in Konfidenz-intervall für E[δ]?

  12. Resampling estimated log-likelihood (RELL- Methode) Zeitgewinn • RELL-Methode: für L1,(i) - bzw. L2,(i) - Berechnung stets ΘML,1 und ΘML,2 verwenden (ΘML,X:optimierter Parameter für Originaldaten) • Vorrausetzung für Anwendung: • Korrektes Evolutionäres Modell • Ausreichend große Datenmengen

  13. Test priNPncd • Test Statistik: δ= L1- L2 • Mit NP-Bootstrap Datenmengen i erzeugen • Für jedes i: - Mit ΘML,1 undΘML,2 bestimmen von Ľ1,(i)undĽ2,(i) („΄“ bedeutet Schätzung) - δ̛(i)=Ľ1,(i)- Ľ2,(i) 4.Zentrieren der δ̛(i) Δ̛(i) 5.Zwei-seitiger Test: Fällt δ in Konfidenz-intervall für E[δ]?

  14. Test priNPncn • Kishino und Hasegawa (1989): δ ist normalverteilt (mit Varianz und Mittel abhängig von δ(i)) Zentralem Grenzwertsatz: (normierte) Summe einer großen Zahl von unabhängigen, identisch verteilten Zufallsvariablen ist fast (standard) normalverteilt

  15. Test priNPncn • Im Test priNPncd letzten Schritt mit folgendem austauschen: 5. Berechne Varianz von Δ̛(i) (=ν²) und teste, ob δ bei N(0, ν²)- Verteilung im Konfidenzintervall liegt

  16. Test priNPnca • := log- Wahrscheinlichkeit am Site k von Baum TX (k= 1,2,… S) • Zusätzliche Annahme: Varianz von δ mit Varianz über δ(k) berechenbar

  17. Test priNPnca • Test Statistik: δ= L1- L2 • Mit ΘML,1 undΘML,2 bestimmen von L1(k) und L2(k) der Sites k der Originaldaten δ(k) = L1(k) - L2(k) • Zentrieren der δ(k)Δ(k)

  18. Test priNPnca • Schätzen der Varianz von Δ(k) (=Var(δ(k)))mit ν²= ΣK(Δ(k))²/(S-1) Varianz von δ = S * ν² • Zweiseitiger Test: Liegt δ im Konfidenzintervall bei einer N(0, S*ν²)- Verteilung? • Implementiert in PHYLIP, PUZZLE (MOLPHY)

  19. Test priNPncs • Letzte beiden Schritte von Test priNPnca ersetzen mit: 4. paired- t- Test von L1(k) und L2(k) (Paare {L1(1), L2(1)}, {L1(2), L2(2)},…, {L1(S), L2(S)}) zur Überprüfung, ob Mittelwerte gleich sind (E[μ1 - µ2] =0)

  20. Students t- Verteilung • Nach dem Pseudonym des „Entdeckers“ William S. Gosset benannt • m = Anzahl Freiheitsgrade (m ∞: Normverteilung)

  21. Test priNPncs • implementiert in PAUP* Keine theoretische Erklärung denkbar für zusätzliche Annahme Trotzdem ähnliche Signifikanzlevels in Anwendung wie bei DNAML (Unterprogramm von PHYLIP)

  22. Falscher Gebrauch des KH-Tests • T1 und T2 müssen unabhängig voneinander UND ohnevorherige Analyse der Daten ausgewählt sein zur Rechtfertigung von H0 • Falls TX = TML INKORREKTER KH-T - Keine Ergebnisse stützen E[δ] =0, stattdessen E[δ] >0 ! einseitige Tests erforderlich

  23. Korrektes Vorgehen • Trainer: Unterscheiden sich die Zeiten von Asterix und Obelix im 100m Sprint im Mittel signifikant? • Vorgehen: Über viele Rennen δ(Asterix, Obelix)= t(Asterix)- t(Obelix) (wenn gleich gut E[δ] 0)

  24. Korrektes Vorgehen • Team- Statistiker: H0:E[δ(Asterix, Obelix)] =0 HA:E[δ(Asterix, Obelix)] =0

  25. Verdeutlichen des Fehlers • Trainer glaubt Idefix ist schnellster • δ(Idefix, schnellster)= t(Idefix) – t(schnellster) • Vermutung: wenn gleich gut E[δ] 0 • Team-Statistiker: Falsch!! - Grund: Es gilt stets δ(Idefix, schnellster) ≥ 0

  26. Shimodaira- Hasegawa Test (SH- Test) • Vergleicht gleichzeitig alle Topologien einer Menge M (= Menge aller möglichen Topologien) • a priori Wahl der Topologien in M • H0: alle TxεM sind gleichgute Erklärungen

  27. SH- Test (=Test posNPfcd) • Für jedes TXεM: δX:=LML – LX • Mit NP-Bootstrap Datenmengen i erzeugen • Für jedes i und jedes TX : maximiere LX,(i) über ΘX • Für jedes TX : LX,(i) L̃X,(i) durch Zentrieren (=Abziehen der Mittel über i von LX,(i))

  28. SH- Test (=Test posNPfcd) • Für jedes i: - Finde L̃ML,(i) (Maximum über L̃X,(i)) - Bootstrap-Statistik: δX,(i)= L̃ML,(i) - LX,(i) • Einseitiger Test (da, L̃ML,(i) ≥ LX,(i)) : Liegt δX im Konfidenzintervall für E[δX] bei einer δX,(i)- Verteilung?

  29. Test posNPncd Zeitgewinn mit RELL-Methode • Für jedes TXεM: δX:= LML – LX • Mit NP-Bootstrap Datenmengen i erzeugen • Für jedes i und jedes TX : approximiere LX,(i) mit ΘML,X • Rest wie bei Test posNPncd

  30. SH- Test … … schätzt gleichzeitig Signifikanzlevels für jede Topologie TX … als modifizierte Version des KH- Tests mit a priori- gewählte T1 und a posteriori- gewählte TML (Unterschied: bei Verteilungsbestim-mung Menge aller Topologien M betrachtet)

  31. Rettung falscher KH- Test- Ergebnisse • Wenn P-Wert mindestens doppelt so groß wie Signifikanzlevel ist • Vorgehen: P-Wert des zweiseitigen Tests zu dem eines einseitigen abändern den P-Wert p des falsch angewandten KH- Tests halbieren, da im SH- Test P- Wert ≥ p/2 beträgt Beispiel: p/2 > 0,05 SH- Test erlaubt ebenfalls keine Ablehnung von H0

  32. Keine Rettung der KH- Ergebnisse • Wenn p/2 zu klein ist, d.h. p führt zur Ablehnung im KH-Test oder lag in der Nähe des Signifikanzlevels • Grund: SH- Test liefert Ergebnis ≥ p/2 • Beispiel: a. p< 0,05 p/2<0,025 b. 0,05< p< 0,1 (keine H0-Ablehnung) 0,025< p/2< 0,05 Wie viel größer?

  33. SOWH- Test (=Test posPfud) • Von Swofford et al. beschrieben und Hillis et al. implementiert • Schätzt, ob a priori- gewählte Topologie T1 Daten unterstützt oder für andere verwerfen werden sollte • H0: T1 ist wahre Topologie HA: wahre Topologie ist andere

  34. SOWH- Test (=Test posPfud) • Test Statistik: δ= LML– L1 • Mit P- Bootstrap und ML-Schätzer ΘML,1 Datenmengen i erzeugen • Für alle Tx:Schätzen von ΘXfür maximale LX,(i) • Finde LML,(i) • δ(i) = LML,(i) - L1,(i) (Verteilung für δ) • Einseitiger Test: δ signifikant?

  35. SOWH- Test (=Test posPfud) • Test Statistik δ wie bei KH und SH-Test • Da TML benutzt Annahme E[δ] =0 nicht möglich • Da P- Bootstrap keine Zentrierung Zeit für Maximierung über alle TX Vorschlag 1: RELL-like für (a priori) T1

  36. Test posPpud (Schätzung unter H0) • Schritte 1 und 2 siehe Test posPfud • Für alle Tx/{T1}:Schätzen von ΘXfür maximale LX,(i) • Für T1 benutze ΘML,1Ľ1,(i) • Finde LML,(i) • δ̛(i)=LML,(i)– Ľ1,(i)(Verteilung für δ) • Einseitiger Test: δ signifikant?

  37. Test posPpud (Schätzung unter H0) nicht besonders schneller • Test posPnud unvernünftig, da original TML (ΘML) weit entfernt von optimalen Werten der Bootstrap-Daten (mit T1 und Θ1 geschätzt) • Bekannt: Es gibt über verschiedene Topologien stabile Parameter (Bsp. Basenhäufigkeit)

  38. Test posPpud (Schätzung unter HA) • Alle Parameterkomponenten, die gleich für alle TX sind, feste Werte (von ΘML,1) zuweisen • Unterschied zum vorigen Test: - nur „freie“ Parameterwerte (Astlängen) werden maximiert • Wenn beide Tests H0 nicht verwerfen • Wenn beide Tests H0 verwerfen ?

  39. Beispiel HIV-1 - DNA • Geg: 6 homologe DNA Sequenzen à 2000 bp von gag und pol Gen von HIV (A1, A2, B, D, E1, E2) Alignieren • Konventionelle Phylogenie: T1= ((A1,A2), (B,D), (E1,E2)) L1= -5073,75

  40. Beispiel HIV-1 - DNA • ML Phylogenie: TML=(A1, (B,D), (A2, (E1,E2))) LML= -5069,9 • SH-Test: M enthält alle 105 möglichen Tx • Für ML-Berechnungen: Zeitreversibles Modell mit Γ- Verteilung unter den Sites zur Ratenheterogenitätsmodellierung

  41. Gamma (Γ) - Verteilung • Kontinuierliche, reproduktive Wahrscheinlichkeitsverteilung über positive reelle Zahlen • Wahrscheinlichkeitsdichte gegeben durch • E(X)= α/β V(X)= α/β²

  42. Gamma (Γ) - Verteilung

  43. Beispiel HIV-1 - DNA • ΘX: Astlängen, Basenhäufigkeiten, relative Substitutionsrate zwischen Nukleotidpaaren, α (Parameter für Γ- Verteilung) • 1000 Bootstrap-Datenmengen erzeugt • Für alle Test: Teststatistik δ= LML -L1 =3,90 α = 0,05 • Da TML posteriori gewählt wurde KH- Test FALSCH!! (nur zum Vergleich)

  44. Beispiel HIV-1 - DNA

  45. Beispiel HIV-1 - DNA • Mögliche Erklärungen für Unterschied in SH- und SOWH- Testergebnis: - unterschiedliche H0- Hypothesen (- parametrische (SOWH-) Tests sind mächtiger als nichtparametrische (SH-)) - parametrische Tests vom zugrunde gelegten Modell abhängig

  46. Beispiel HIV-1 - DNA

  47. Beispiel Säugetiere - aa • Geg: - 6 mt Proteinsequenzen à 3414 Aminosäuren (aa): Mensch(H), Seehund(S), Kuh(C), Hase(R), Maus(M), Opossum(O) - (S, C) 15 mögliche TX • SH- Test: 15 TX gleichzeitig verglichen 7 TX nicht verworfen

  48. Beispiel Säugetiere - aa • SOWH- Test: - T1= ((H, ((S, C), R)), M, O) (a priori) - TML= (((H, (S, C)), R), M, O) • Mit „model of mammalian mt aa replacement + F + Γ“ (Yang et al. 1998): L1 = - 21727,26 LML = - 21724,60 • Teststatistik δ= LML -L1 =2,66

  49. Beispiel Säugetiere - aa

  50. Zusammenfassung/ Ausblick • Veröffentlichte KH- Test Ergebnisse mit Vorsicht behandeln!! • Alle zukünftigen Tests mit SH- oder SOWH- Tests ausführen • Untersuchung von Ergebnissen mit kombinierten Tests • Untersuchung der Unterschiede zwischen SH- und SOWH- Testergebnissen

More Related