Statistische Tests in der Phylogenie

Statistische Tests in der Phylogenie Likelihood-Based Tests of Topologies in Phylogenetics Nick Goldman, Jon P. Anderson, Allen G. Rodrigo -Lisha Naduvilezhath

Gliederung 1. Hintergrund-“wissen“ - Signifikanz-/ Hypothesentest - Bootstrap 2. Verschiedene Tests - KH- / SH- / SOWH- Test - Beispiel HIV-1 / Säugetiere 3. Zusammenfassung/ Ausblick

Thema Seq1 : CGGTTCA… Seq2 : AGGTTCA… Seq3 : ATGTTCA… Seq4 : AGGTTCT… Seq5 : CGATTGA… T1/ L1 Gleich gut? LX ist log- Likelihood für TX T2/ L2

Signifikanz-/ Hypothesentest • Statistische Hypothese: Annahme über Wahrscheinlichkeitsverteilung der Grundgesamtheit, die wahr oder falsch sein kann • Nullhypothese (H0): statistische Hypothese, die meist verworfen wird z.B.: Aussage: „Münze präpariert“ Hypothese: Münze fair H0: p= 0,5 für Kopf

Signifikanz-/ Hypothesentest • Alternativhypothese (HA, H1):jede von H0 andere Hypothese (z.B.: p<0,5) • Signifikanztest: Verfahren zum Errechnen, ob beobachtete Daten unter Annahme von H0 signifikant sind • Beobachtete Daten sind signifikant, wenn geneigt H0 abzulehnen

Signifikanz-/ Hypothesentest • Signifikanzlevel/ -niveau/ Irrtumswahrscheinlichkeit (α): maximale WS mit der Hypothese abgelehnt wurde, die akzeptiert werden sollte; oft α=5% oder 1% • P-Wert: WS den beobachteten oder extremeren Wert anzutreffen/ kleinstes α, auf dem H0 abgelehnt wird

Signifikanz-/ Hypothesentest Einseitiger Test Zweiseitiger Test

Bootstrap • Bootstrap- Gedanke: Neu erzeugte Parameter sind genauso weit entfernt vom ML- Schätzer wie ML- vom wahren Parameter. • Nichtparametrischer (NP) Bootstrap: Bootstrap- Stichproben durch Ziehen mit Zurücklegen aus Originaldaten erzeugen • Parametrischer (P) Bootstrap(Monte Carlo Simulation): durch zugrunde gelegte Verteilung für benötigten Parameter Schätzung einsetzen und Bootstrap- Daten simulieren

Bootstrap Site • In der Phylogenie: • Aufgrund der Verteilungsannahme parametrischer Tests abhängiger von zugrunde gelegten Modellen Seq1 : C G G T T C A… Seq2 : A G G T T C A… Seq3 : A T G T T C A… Seq4 : A G G T T C T… Seq5 : C G A T T G A…

Kishino- Hasegawa Test (KH-Test) • Gegeben: Topologien T1 (L1) und T2(L2) • Fragestellung: Unterstützen T1 und T2 die Daten gleichermaßen? H0:E[δ] =0 mit δ= L1 - L2 (HA: E[δ] =0) • keineVerteilung für δ gegeben in H0 nichtparametrischer Bootstrap

KH- Test (=Test priNPfcd) • Test Statistik: δ= L1- L2 • Mit NP-Bootstrap Datenmengen i erzeugen • Für jedes i: - Schätzen von Θ1und Θ2für maximale log-likelihoods L1,(i)und L2,(i) - δ(i)=L1,(i)- L2,(i) 4.Zentrieren der δ(i)Δ(i) (Verteilung der Δ(i) ist Schätzung für δ- Verteilung) 5. Zwei-seitiger Test: Fällt δ in Konfidenz-intervall für E[δ]?

Resampling estimated log-likelihood (RELL- Methode) Zeitgewinn • RELL-Methode: für L1,(i) - bzw. L2,(i) - Berechnung stets ΘML,1 und ΘML,2 verwenden (ΘML,X:optimierter Parameter für Originaldaten) • Vorrausetzung für Anwendung: • Korrektes Evolutionäres Modell • Ausreichend große Datenmengen

Test priNPncd • Test Statistik: δ= L1- L2 • Mit NP-Bootstrap Datenmengen i erzeugen • Für jedes i: - Mit ΘML,1 undΘML,2 bestimmen von Ľ1,(i)undĽ2,(i) („΄“ bedeutet Schätzung) - δ̛(i)=Ľ1,(i)- Ľ2,(i) 4.Zentrieren der δ̛(i) Δ̛(i) 5.Zwei-seitiger Test: Fällt δ in Konfidenz-intervall für E[δ]?

Test priNPncn • Kishino und Hasegawa (1989): δ ist normalverteilt (mit Varianz und Mittel abhängig von δ(i)) Zentralem Grenzwertsatz: (normierte) Summe einer großen Zahl von unabhängigen, identisch verteilten Zufallsvariablen ist fast (standard) normalverteilt

Test priNPncn • Im Test priNPncd letzten Schritt mit folgendem austauschen: 5. Berechne Varianz von Δ̛(i) (=ν²) und teste, ob δ bei N(0, ν²)- Verteilung im Konfidenzintervall liegt

Test priNPnca • := log- Wahrscheinlichkeit am Site k von Baum TX (k= 1,2,… S) • Zusätzliche Annahme: Varianz von δ mit Varianz über δ(k) berechenbar

Test priNPnca • Test Statistik: δ= L1- L2 • Mit ΘML,1 undΘML,2 bestimmen von L1(k) und L2(k) der Sites k der Originaldaten δ(k) = L1(k) - L2(k) • Zentrieren der δ(k)Δ(k)

Test priNPnca • Schätzen der Varianz von Δ(k) (=Var(δ(k)))mit ν²= ΣK(Δ(k))²/(S-1) Varianz von δ = S * ν² • Zweiseitiger Test: Liegt δ im Konfidenzintervall bei einer N(0, S*ν²)- Verteilung? • Implementiert in PHYLIP, PUZZLE (MOLPHY)

Test priNPncs • Letzte beiden Schritte von Test priNPnca ersetzen mit: 4. paired- t- Test von L1(k) und L2(k) (Paare {L1(1), L2(1)}, {L1(2), L2(2)},…, {L1(S), L2(S)}) zur Überprüfung, ob Mittelwerte gleich sind (E[μ1 - µ2] =0)

Students t- Verteilung • Nach dem Pseudonym des „Entdeckers“ William S. Gosset benannt • m = Anzahl Freiheitsgrade (m ∞: Normverteilung)

Test priNPncs • implementiert in PAUP* Keine theoretische Erklärung denkbar für zusätzliche Annahme Trotzdem ähnliche Signifikanzlevels in Anwendung wie bei DNAML (Unterprogramm von PHYLIP)

Falscher Gebrauch des KH-Tests • T1 und T2 müssen unabhängig voneinander UND ohnevorherige Analyse der Daten ausgewählt sein zur Rechtfertigung von H0 • Falls TX = TML INKORREKTER KH-T - Keine Ergebnisse stützen E[δ] =0, stattdessen E[δ] >0 ! einseitige Tests erforderlich

Korrektes Vorgehen • Trainer: Unterscheiden sich die Zeiten von Asterix und Obelix im 100m Sprint im Mittel signifikant? • Vorgehen: Über viele Rennen δ(Asterix, Obelix)= t(Asterix)- t(Obelix) (wenn gleich gut E[δ] 0)

Korrektes Vorgehen • Team- Statistiker: H0:E[δ(Asterix, Obelix)] =0 HA:E[δ(Asterix, Obelix)] =0

Verdeutlichen des Fehlers • Trainer glaubt Idefix ist schnellster • δ(Idefix, schnellster)= t(Idefix) – t(schnellster) • Vermutung: wenn gleich gut E[δ] 0 • Team-Statistiker: Falsch!! - Grund: Es gilt stets δ(Idefix, schnellster) ≥ 0

Shimodaira- Hasegawa Test (SH- Test) • Vergleicht gleichzeitig alle Topologien einer Menge M (= Menge aller möglichen Topologien) • a priori Wahl der Topologien in M • H0: alle TxεM sind gleichgute Erklärungen

SH- Test (=Test posNPfcd) • Für jedes TXεM: δX:=LML – LX • Mit NP-Bootstrap Datenmengen i erzeugen • Für jedes i und jedes TX : maximiere LX,(i) über ΘX • Für jedes TX : LX,(i) L̃X,(i) durch Zentrieren (=Abziehen der Mittel über i von LX,(i))

SH- Test (=Test posNPfcd) • Für jedes i: - Finde L̃ML,(i) (Maximum über L̃X,(i)) - Bootstrap-Statistik: δX,(i)= L̃ML,(i) - LX,(i) • Einseitiger Test (da, L̃ML,(i) ≥ LX,(i)) : Liegt δX im Konfidenzintervall für E[δX] bei einer δX,(i)- Verteilung?

Test posNPncd Zeitgewinn mit RELL-Methode • Für jedes TXεM: δX:= LML – LX • Mit NP-Bootstrap Datenmengen i erzeugen • Für jedes i und jedes TX : approximiere LX,(i) mit ΘML,X • Rest wie bei Test posNPncd

SH- Test … … schätzt gleichzeitig Signifikanzlevels für jede Topologie TX … als modifizierte Version des KH- Tests mit a priori- gewählte T1 und a posteriori- gewählte TML (Unterschied: bei Verteilungsbestim-mung Menge aller Topologien M betrachtet)

Rettung falscher KH- Test- Ergebnisse • Wenn P-Wert mindestens doppelt so groß wie Signifikanzlevel ist • Vorgehen: P-Wert des zweiseitigen Tests zu dem eines einseitigen abändern den P-Wert p des falsch angewandten KH- Tests halbieren, da im SH- Test P- Wert ≥ p/2 beträgt Beispiel: p/2 > 0,05 SH- Test erlaubt ebenfalls keine Ablehnung von H0

Keine Rettung der KH- Ergebnisse • Wenn p/2 zu klein ist, d.h. p führt zur Ablehnung im KH-Test oder lag in der Nähe des Signifikanzlevels • Grund: SH- Test liefert Ergebnis ≥ p/2 • Beispiel: a. p< 0,05 p/2<0,025 b. 0,05< p< 0,1 (keine H0-Ablehnung) 0,025< p/2< 0,05 Wie viel größer?

SOWH- Test (=Test posPfud) • Von Swofford et al. beschrieben und Hillis et al. implementiert • Schätzt, ob a priori- gewählte Topologie T1 Daten unterstützt oder für andere verwerfen werden sollte • H0: T1 ist wahre Topologie HA: wahre Topologie ist andere

SOWH- Test (=Test posPfud) • Test Statistik: δ= LML– L1 • Mit P- Bootstrap und ML-Schätzer ΘML,1 Datenmengen i erzeugen • Für alle Tx:Schätzen von ΘXfür maximale LX,(i) • Finde LML,(i) • δ(i) = LML,(i) - L1,(i) (Verteilung für δ) • Einseitiger Test: δ signifikant?

SOWH- Test (=Test posPfud) • Test Statistik δ wie bei KH und SH-Test • Da TML benutzt Annahme E[δ] =0 nicht möglich • Da P- Bootstrap keine Zentrierung Zeit für Maximierung über alle TX Vorschlag 1: RELL-like für (a priori) T1

Test posPpud (Schätzung unter H0) • Schritte 1 und 2 siehe Test posPfud • Für alle Tx/{T1}:Schätzen von ΘXfür maximale LX,(i) • Für T1 benutze ΘML,1Ľ1,(i) • Finde LML,(i) • δ̛(i)=LML,(i)– Ľ1,(i)(Verteilung für δ) • Einseitiger Test: δ signifikant?

Test posPpud (Schätzung unter H0) nicht besonders schneller • Test posPnud unvernünftig, da original TML (ΘML) weit entfernt von optimalen Werten der Bootstrap-Daten (mit T1 und Θ1 geschätzt) • Bekannt: Es gibt über verschiedene Topologien stabile Parameter (Bsp. Basenhäufigkeit)

Test posPpud (Schätzung unter HA) • Alle Parameterkomponenten, die gleich für alle TX sind, feste Werte (von ΘML,1) zuweisen • Unterschied zum vorigen Test: - nur „freie“ Parameterwerte (Astlängen) werden maximiert • Wenn beide Tests H0 nicht verwerfen • Wenn beide Tests H0 verwerfen ?

Beispiel HIV-1 - DNA • Geg: 6 homologe DNA Sequenzen à 2000 bp von gag und pol Gen von HIV (A1, A2, B, D, E1, E2) Alignieren • Konventionelle Phylogenie: T1= ((A1,A2), (B,D), (E1,E2)) L1= -5073,75

Beispiel HIV-1 - DNA • ML Phylogenie: TML=(A1, (B,D), (A2, (E1,E2))) LML= -5069,9 • SH-Test: M enthält alle 105 möglichen Tx • Für ML-Berechnungen: Zeitreversibles Modell mit Γ- Verteilung unter den Sites zur Ratenheterogenitätsmodellierung

Gamma (Γ) - Verteilung • Kontinuierliche, reproduktive Wahrscheinlichkeitsverteilung über positive reelle Zahlen • Wahrscheinlichkeitsdichte gegeben durch • E(X)= α/β V(X)= α/β²

Gamma (Γ) - Verteilung

Beispiel HIV-1 - DNA • ΘX: Astlängen, Basenhäufigkeiten, relative Substitutionsrate zwischen Nukleotidpaaren, α (Parameter für Γ- Verteilung) • 1000 Bootstrap-Datenmengen erzeugt • Für alle Test: Teststatistik δ= LML -L1 =3,90 α = 0,05 • Da TML posteriori gewählt wurde KH- Test FALSCH!! (nur zum Vergleich)

Beispiel HIV-1 - DNA

Beispiel HIV-1 - DNA • Mögliche Erklärungen für Unterschied in SH- und SOWH- Testergebnis: - unterschiedliche H0- Hypothesen (- parametrische (SOWH-) Tests sind mächtiger als nichtparametrische (SH-)) - parametrische Tests vom zugrunde gelegten Modell abhängig

Beispiel HIV-1 - DNA

Beispiel Säugetiere - aa • Geg: - 6 mt Proteinsequenzen à 3414 Aminosäuren (aa): Mensch(H), Seehund(S), Kuh(C), Hase(R), Maus(M), Opossum(O) - (S, C) 15 mögliche TX • SH- Test: 15 TX gleichzeitig verglichen 7 TX nicht verworfen

Beispiel Säugetiere - aa • SOWH- Test: - T1= ((H, ((S, C), R)), M, O) (a priori) - TML= (((H, (S, C)), R), M, O) • Mit „model of mammalian mt aa replacement + F + Γ“ (Yang et al. 1998): L1 = - 21727,26 LML = - 21724,60 • Teststatistik δ= LML -L1 =2,66

Beispiel Säugetiere - aa

Zusammenfassung/ Ausblick • Veröffentlichte KH- Test Ergebnisse mit Vorsicht behandeln!! • Alle zukünftigen Tests mit SH- oder SOWH- Tests ausführen • Untersuchung von Ergebnissen mit kombinierten Tests • Untersuchung der Unterschiede zwischen SH- und SOWH- Testergebnissen

Statistische Tests in der Phylogenie