550 likes | 810 Views
‘Omics’ - Analysis of high dimensional Data. Achim Tresch Computational Biology. G R U N D G E S A M T H E I T. Stichprobe. Beurteilende Statistik.
E N D
‘Omics’ - Analysis of high dimensional Data Achim TreschComputational Biology
G R U N D G E S A M T H E I T Stichprobe Beurteilende Statistik Deskriptive (beschreibende) Statistik:Übersichtliche Aufbereitung der Daten eines vorliegenden Kollektivs (Stichprobe) mittels Graphiken und Tabellen Beurteilende (schließende, Inferenz-) Statistik:Induktiver Schluss von der Stichprobe auf die Grundgesamtheit; Gewinnung allgemeiner Erkenntnisse
Unsicherheitsbehaftete Entscheidungen Andrey Kolmogoroff Schamane
Beurteilende Statistik Schluss von der Stichprobe auf die Grundgesamtheit Da anhand einer Stichprobe nur unvollständige Information vorliegt, sind ungenaue Schlüsse und Fehlschlüsse möglich. Wichtige Aufgabe der statistischen Methodik: Trotzdem möglichst genaue und fehlerfreie Schlüsse bzw. Quantifizierung der Unsicherheit bei diesen Schlüssen • Statistischer Test (Signifikanztest): Unterschied in der Grund-gesamtheit? Unterschied in der Stichprobe
Beurteilende Statistik Schluss von der Stichprobe auf die Grundgesamtheit • Schätzung: Maßzahl in der Grund-gesamtheit?Toleranzen (Konfidenz-bereich)? Ermittelte Maßzahl in der Stichprobe
Beurteilende Statistik Wann ist der Schluss von der Stichprobe auf die Grundgesamtheit möglich? Wichtig: Stichprobe muss „repräsentativ“ sein! (Stichprobe enthält nur Bodenproben aus Köln -> Keine Aussagen über Boden in Argentinien möglich) Repräsentativität kann erzielt werden durch zufällige Ziehung aus der Grundgesamtheit (in der Praxis selten möglich). Genau überlegen, „wie weit“ man schließen kann! Beispiel: Therapie bei Kindern mit Leukämie in Mainz → Kinder in anderen Unikliniken in Deutschland? → Alle Leukämiekinder auf der Welt??
Eine Methode zur Erkennung von (nicht-)Schafen Lernphase: Vermesse alle Schafe, die dir begegnen.
Eine Methode zur Erkennung von (nicht-)Schafen Lernphase: Vermesse alle Schafe, die dir begegnen. Beschreibe die Größe der Schafe, z.B. durch einen Dichteplot.
Eine Methode zur Erkennung von (nicht-)Schafen Testphase: Begegnet dir ein neues Tier, so vermesse es. Liegt die Größe des Tieres außerhalb des Größenbereichs der Schafe, so nenne das Tier „zu groß/zu klein für ein Schaf“. Ansonsten gehe davon aus, dass es ein Schaf ist Kein Schaf
Echt Positive FalschPositive Falsch Negative Echt Negative Eine Methode zur Erkennung von (nicht-)Schafen Vorteil der Methode: Man muss nichts über Schafe wissen außer ihrer Größenverteilung. Nachteil der Methode: Sie ist fehlerbehaftet Positive (Auffälligkeiten) Negative (keine Auffälligkeiten) Schwellwert
Eine Methode zum Nachweis von Medikamentenwirksamkeit = Eine Methode zum Erkennen von nicht-Placebos Lernphase: Quantifiziere die Wirkung eines Placebos (z.B. Blutdrucksenkung in mmHg). Lege eine Entscheidungsschwelle fest Testphase: Quantifiziere die Wirkung eines Medikaments. Nenne es wirksam, wenn die Wirkung jenseits der Schwelle liegt
Statistisches Testen von Hypothesen • Formuliere eine Nullhypothese H0(„es passiert nichts“) • Wähle eine Teststatistik (Prüfgröße, die gemessene Größe zur Entscheidungsfindung). Lege damit implizit die Nullverteilung (die Verteilung der Teststatistik, falls die Nullhypothese gilt) fest.
Statistisches Testen von Hypothesen • Formuliere eine Alternativhypothese (z.B. „die Werte sind größer als unter der Nullhypothese erwartet“) • Lege eine Entscheidungsschwelle d fest.Dies ist äquivalent zur Festlegung des Signifikanzniveaus α, d.h. dem Anteil der falsch Positiven unter den Negativen. d α
Statistisches Testen von Hypothesen • Bestimme denWert der Teststatistik (z.B. mittels einer Studie), und fälle durch Vergleich von Teststatistik und Entscheidungschwelle eine Entscheidung. Lehne die Nullhypo-these ab, nimm die Alternativhypothese an. Behalte H0 bei (lehne jedoch die Alternativ-hypothese nicht ab). d α
Kriterien für die Güte einer Teststatistik d Gute Statistik Verteilung der Teststatistik bei Gültigkeit der Nullhypothese Verteilung der Teststatistik bei Gültigkeit der Alternativhypo-these 0
0 Kriterien für die Güte einer Teststatistik d Schlechte Statistik Verteilung der Teststatistik bei Gültigkeit der Nullhypothese Verteilung der Teststatistik bei Gültigkeit der Alternativhypo-these
Bsp: Das Offenbacher Orakel Würfele mit dem 20-seitigen Würfel. Augenzahl = 20: lehne die Nullhypothese ab Augenzahl ≠ 20: lehne die Nullhypothese nicht ab Dies (unabhängig von der Nullhypothese)ein valider Test auf 5%-Signifikanzniveau!
Bsp: Das Offenbacher Orakel Aber: Die Verteilung der Teststatistik unter der Null- und der Alternativhypothese ist gleich! Dieser Test kann nicht zwischen den Gruppen diskriminieren! Verteilung unter H0 Verteilung unter H1 95% der Positiven werden nicht erkannt
Der p-Wert Hat man eine Teststatistik festgelegt und einen Wert für sie aus den Messdaten ermittelt, so kann dieser in einen p-Wert umgerechnet werden: Wahrscheinlichkeit, bei Gültigkeit der Nullhypothese einen Wert zu beobachten, welcher mindestens so extrem ist wie der beobachtete Wert p = 0.08
Der p-Wert Hat man eine Teststatistik festgelegt und einen Wert für sie aus den Messdaten ermittelt, so kann dieser in einen p-Wert umgerechnet werden: Der einem Wert t der Teststatistik zugeordnete p-Wert ist die Wahrscheinlichkeit, bei Gültigkeit der Nullhypothese einen Wert zu beobachten, welcher mindestens so extrem ist wie der beobachtete Wert t. p = 0.42 t
p = 0.83 p = 0.02 t t Der p-Wert Entscheidungsschwelle d Signifikanzniveau α Beobachtete Teststatistik t p-Wert t ist extremer als d p ist kleiner als α p < α Lehne die Nullhypo-these ab, nimm die Alternativhypothese an. p≥α Behalte H0 bei (lehne jedoch die Alternativ-hypothese nicht ab). α = 0.05 d
Ein- und zweiseitige Fragestellungen Einseitige Fragestellung H0: Der Wert der Prüfgröße ist in Gruppe I nicht höher als in Gruppe II H1: Der Wert der Prüfgröße ist in Gruppe I höher als in Gruppe II ][ Ablehungsbereich Annahmebereich
Ein- und zweiseitige Fragestellungen Zweiseitige Fragestellung H0: Die Prüfgröße ist in Gruppe I und Gruppe II gleich H1: Die Prüfgröße ist in Gruppe I und in Gruppe II verschieden Zweiseitige Fragestellung im Allgemeinen angemessen: Effekte in beide Richtungen werden detektiert. Bei Zulassungsstudien wird zweiseitige Auswertung gefordert! ][ ][ Ablehungsbereich Ablehungsbereich Annahmebereich
Interpretation eines Testergebnisses Was muss bei einer Sachaussage im Anschluss an einen statistischen Test beachtet werden? • Testentscheidung: „signifikant“ bzw. „nicht signifikant“ mit Signifikanzniveau • Was wird verglichen? (Gruppeneinteilung) • Was ist die Grundgesamtheit? • Was ist die Zielgröße?(ggf. genauere Information, z.B. Zeitangabe) • Falls ein signifikanter Unterschied besteht:Interpretation! (Welche Richtung?)
Gruppe 1 Gruppe 2 Gen A … Welches Gen ist „weniger stark“ exprimiert? Gen B Genexpressions-messungen Spezielle statistische Tests Vergleich der Mittelwerte zweier Gruppen
Gruppe 1Gruppe 2 Zwei-Gruppen Lagevergleich Fragestellung / Hypothese Ist die Expression von Gen g in Gruppe 1 niedriger als die in Gruppe 2? Daten: Expression von Gen g in verschiedenen Proben (Absolutskala) Teststatistik, z.B. Differenz der Gruppenmittel Entscheidung für “niedriger exprimiert“ wenn
Schlechte Idee: Subtrahiere die Gruppenmittelwerte Gruppe 1Gruppe 2 Zwei-Gruppen Lagevergleich Problem:d ist nicht skaleninvariant Lösung: Teile ddurch seine Standardabw. Daraus entsteht die t-Statistik bzw. der t-Test(für unverbundene Stichproben)
Zwei-Gruppen Lagevergleich Beispiel:t-Test für den Vergleich der Plazentagewichte bei gesunden und diabetischen Müttern Zielgröße: Plazentagewicht [g] Gruppe 1: n = 23 gesundeMütter Gruppe 2: n= 38 Mütter mit manifestem Diabetes
Zwei-Gruppen t-Test Maßzahlen zum Vergleich der beiden Gruppen (Messwerte in Gramm) Für beide Gruppen: - 1 < g < +1, also Mittelwerte (noch) sinnvoll
Zwei-Gruppen t-Test Hypothesen: H0: Es gibt keinen (Mittelwerts-) Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern H1: Es gibt einen (MW-) Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern Gewähltes Signifikanzniveau:α = 5% Zweiseitiger Test
Zwei-Gruppen t-Test Voraussetzung: Gaußverteilung in beiden Gruppen Zeile „Varianzen gleich“: Auch noch gleiche Varianzen (bzw. Standardabweichungen) in beiden Gruppen nötig. Zeile „Varianzen ungleich“ bedeutet nur: Gleiche Varianzen sind nicht erforderlich. Pragmatisch: Immer 2. Zeile verwenden! p = 0.002
Zwei-Gruppen t-Test Ergebnis: Mittelwertsdifferenz = (–) 126.7 p-Wert = 0.002 p = 0.002 = 0.2% < 5% = 0.05 = α Also signifikanter Unterschied zum Niveau 5%! Sachaussage: Zum Signifikanzniveau α = 5% besteht ein signifikanter Mittelwerts-Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern. Konkret haben diabetische Mütter höhere Plazentagewichte. Interpretation des p-Werts: Falls zwischen den (mittleren) Plazentagewichten zwischen gesunden und diabetischen Müttern kein Unterschied besteht (also H0 gilt), beträgt die Wahrscheinlichkeit, dennoch einen Mittelwertsunterschied von mindestens 126.7 g zu beobachten, unter den gegebenen Umständen 0.2%.
Wilcoxon (Rangsummen) Test (Mann-Whitney-Test) Untersuche für unverbundene Stichproben: Sind die Werte in Gruppe 1 kleiner als in Gruppe 2 ? 3 5 6 7 8 9 10 12 15 18 Originalskala Rangskala 1 2 3 4 5 6 7 8 9 10 Rangsumme Gruppe 1:1+2+3+6+10 = 22 Rangsumme Gruppe 2:4+5+7+8+9 = 33
Wilcoxon (Rangsummen) Test (Mann-Whitney-Test) Wähle die Rangsumme von Gruppe 1 als Teststatistik Der zur Rangsumme gehörige p-Wert kann per Computer für kleine Gruppenzahlen exakt oder für große Gruppenzahlen näherungsweise berechnet werden: P(W≤22, falls die Gruppen- zugehörigkeiten zufällig sind) = 0.15 15 20 25 30 35 40 22 Wilcoxon W Rangsummenverteilung für Gruppe 1, |Gruppe 1| = 5, |Gruppe 2| = 5
Wilcoxon (Rangsummen) Test (Mann-Whitney-Test) Beispiel Plazentagewichte • Für größere Fallzahlen (N>20) wird eine Näherung berechnet • Der Wilcoxon Test kann einseitig oder zweiseitig durchgeführt werden
Testübersicht: Gruppenvergleich eines stetigen Merkmals Zu klärende Frage: Existiert ein Lageunterschied der Merkmalsausprägungen zwischen Gruppe 1 und Gruppe 2? Sind die Daten normalverteilt? ja nein Verbundene Stichproben? Verbundene Stichproben? ja nein ja nein t-Test für verbundene Stichproben t-Test für unverb. Stichproben Wilcoxon Vorzeichen-test Wilcoxon Rangsummen-test
Vergleich zweier binärer Merkmale Wahl der Teststatistik: „Exakter Fisher-Test“ Sir Ronald Aylmer Fisher, 1890-1962 Theoretischer Biologe, Evolutionstheoretiker und Statistiker
Vergleich zweier binärer Merkmale Unverbundene Stichproben: Exakter Fisher Test Der exakte Fisher Test soll die Frage beantworten:Gibt es Unterschiede in der Verteilung █und █? Bsp.: Wirksamkeitsstudie mit unverbundenen Stichproben (jeder Probend erhält nur einen Präparat)
Odds und Odds Ratio Odds (= Chance): Häufigkeitsverhältnis in einer Gruppe, Quote einer fairen Wette Odds (faire Münze) = 54 : 46 = 1.17 Odds (gebogene M.) = 82 : 18 = 4.56 Odds Ratio (Chancenverhältnis)
Bsp: Dickdarmkarzinom Interessierende Fragen: Hat die Impfung einen Einfluss auf das Überleben? Ist der Einfluss „signifikant“?
Bsp: Dickdarmkarzinom Grundgesamtheit: Alle jetzigen und künftigen Patienten mit Dickdarm-Ca und Metastasen. Nullhypothese H0: Die Impfung hat keinerlei Effekt auf den Zustand der Patienten. Die Überlebensraten bei der Grundgesamtheit sind mit und ohne Impfung gleich. Gegenhypothese (Alternativhypothese) H1: Die Überlebensraten bei der Grundgesamtheit sind mit Impfung und ohne Impfung unterschiedlich. (zweiseitige Fragestellung) Wähle das Signifikanzniveau α(oft gewählt: α =1%; 0.1%; 5%; 10%) Genaue Interpretation des Signifikanzniveaus α :Wenn in Wirklichkeit kein Unterschied besteht (also H0 gilt), erhält man mit Wahrscheinlichkeit α eine Signifikanz (=falsch positive Aussage).
Bsp: Dickdarmkarzinom Testergebnisnach Durchführung des exakten Fisher-Tests: p = 0.0766 7.7% Hat man α = 5% gewählt, so gilt: Da p > α, wird die Nullhypothese beibehalten. Sachaussage: Es besteht zum Niveau α = 5% kein signifikanter Effekt der Impfung auf die Überlebensrate nach 4 Jahren. Folgerung: Wir sind (noch) nicht (hinreichend) davon überzeugt, dass ein Unterschied in den Überlebensraten besteht!
Bsp: Dickdarmkarzinom Interpretation des Ergebnisses (Dickdarmkarzinome mit und ohne Impfung) Überlebensrate nach 4 Jahren mit Impfung: 94% (n = 32) Überlebensrate nach 4 Jahren ohne Impfung: 77% (n = 30) Beobachteter Unterschied in der 4-Jahres-Überlebensrate: 17% exakter Fisher-Test: p = 0.077 Falls die Impfung keinerlei Effekt hat (also H0 gilt), beträgt die Wahrscheinlichkeit, dennoch einen Unterschied von mindestens 17% zwischen beiden Gruppen zu erhalten, unter den gegebenen Umständen 7.7%.
Vergleich zweier kategorialer Merkmale Unverb. Stichproben: Chiquadrat-Test (χ2-Test) H0: Es besteht kein Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: die Tumorgröße hat keinen Einfluss auf das Auftreten von LGE) H1: Es besteht ein Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: die Tumorgröße hat einen Einfluss auf das Auftreten von LGE)
Vergleich zweier kategorialer Merkmale Unverb. Stichproben: Chiquadrat-Test (χ2-Test) Im gegebenen Beispiel erhält man mit SPSS „p = 0.000“ (also: p < 0.001). Wurde als Signifikanzniveau α = 5% gewählt, so ergibt sich als Sachaussage: Bei Patienten mit Magenkarzinomen besteht ein zum 5%-Niveau signifikanter Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: „..... Einfluss der Tumorgröße auf das Auftreten von LGE“). Konkret: je größer der Tumor, desto häufiger treten LGE auf.
Vergleich zweier kategorialer Merkmale Unverb. Stichproben: Chiquadrat-Test (χ2-Test) • Voraussetzungen des Chiquadrat-Tests • Gesamt-Fallzahl nicht zu klein (etwa n ≥ 60) • Erwartungswerte (erwartete Häufigkeiten) nicht zu klein (alle ≥ 5) • Beachte: Bei zwei binären Merkmalen verwende eine Vierfeldertafel und den exakten Fisher-Test!
Testübersicht: Vergleich zweier kategorialer Variablen Zu klärende Frage: Gibt es Unterschiede in den Häufigkeitsverteilungen der verschiedenen Gruppen? Sind die Daten binär? ja nein Verbundene Stichproben? Verbundene Stichproben? ja nein ja nein McNemar Test (Messen die beiden Variablen das Gleiche?) Exakter Fisher Test (Besteht eine Abhängigkeit?) Chiquadrat (χ2) -Test (Bowker Symmetrie-test)
Übersicht: Deskription und statistische Tests (2 Merkmale) * Bei Normalverteilung