820 likes | 1.01k Views
STATISIK. LV Nr.: 0028 SS 2005 6. Juni 2005. Varianzanalyse. Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal skalierte Größe, Faktorausprägungen = Ebenen oder Stufen Merkmal (durch Faktor beeinflusst): Metrische Größe. Varianzanalyse.
E N D
STATISIK LV Nr.: 0028 SS 2005 6. Juni 2005
Varianzanalyse Varianzanalyse od. ANOVA • Frage: Hat ein Faktor Einfluss auf ein Merkmal? • Faktor: Nominal skalierte Größe, Faktorausprägungen = Ebenen oder Stufen • Merkmal (durch Faktor beeinflusst): Metrische Größe
Varianzanalyse Varianzanalyse • Einfache Varianzanalyse: Ein Faktor • Zweifache Varianzanalyse: Zwei Faktoren • …
Varianzanalyse • Test, für arithmetische Mittel von zwei oder mehr Grundgesamtheiten. • Test, ob die Differenz der arithmetischen Mittel von zwei oder mehr als zwei Grundgesamtheiten signifikant von Null verschieden ist.
Varianzanalyse • Modellannahmen der Varinazanalyse: • Unabhängigkeit der Stichproben (i=1,…,r) • Normalverteilung der Merkmale mit µi und σi² • Varianzhomogenität (Homoskedastizität), d.h. σi² = σ²
Varianzanalyse • Nullhypothese: Alle Gruppen haben den gleichen Mittelwert µ H0: µ1 = µ2 = … = µ • Alternativhypothese: Nicht alle Gruppen haben den gleichen Mittelwert µ H1: mindestens zwei µi sind ungleich
Varianzanalyse • Frage: Beeinflusst der Faktor (nominal-skalierte Größe) das Merkmal (metrisch-skalierte Größe)? • Unter H0: µi = µ für alle i (i = 1,…,r Faktorstufen). • Abweichung, die dem Faktor zuzuschreiben sind: αi = µi - µ (i = 1,…,r) heißen wahre Effekte auf der i-ten Ebene.
Varianzanalyse • Modell der einfachen Varianzanalyse: • xij = µ + αi + eij • µ … Gesamtmittelwert • αi … Effekt auf der i-ten Ebene • eij … Versuchsfehler = die Abweichung eines zufällig aus der i-ten Ebene des Faktors herausgegriffenen Beobachtungswertes xik vom Mittelwert µi dieser Ebene. eij = xij – µi = xij – (µ + αi)
Varianzanalyse • Beispiel: Zugfestigkeit von r = 3 Drahtsorten überprüfen, je Sorte 6 Proben, unabhängig voneinander und N(µi,σ²)-vt. Frage: Bestehen signifikante Unterschiede in der Zugfestigkeit?
Varianzanalyse Vorgehensweise: • Gesamtmittelwert aller Faktorstufen und Mittelwerte der Faktorstufen bestimmen • Bestimmung der Abweichungen • Zerlegung der Abweichungsquadratsumme • Teststatistik und Testverteilung bestimmen • Entscheidung, Interpretation
Varianzanalyse • Gesamtmittelwert über alle Faktorstufen r • Mittelwerte der r Faktorstufen
Varianzanalyse • Beispiel: Drahtsorten
Varianzanalyse • Abweichungen: Quadratsumme der Abweichungen (Sum of Squares) • Abweichungen der Beobachtungen vom Gesamtmittelwert. • Summe der Quadratischen Abweichungen • Bezeichnungen: SST (Total), SSG (Gesamt)
Varianzanalyse • Sum of Squares: • Abweichungen der Beobachtungen der einzelnen Messreihen vom Mittelwert der jeweiligen Messreihe. • Summe der Quadratischen Abweichungen des Restes, Maß für die nicht durch den Faktor beeinflusste Restvariabilität • Bezeichnungen: SSW (Within), SSE (Error), SSR (Residual).
Varianzanalyse • Sum of Squares: • Abweichungen der Mittelwerte der einzelnen Messreihen vom Gesamtmittelwert. • Mit Stichprobengröße multiplizierte Summe der Quadratischen Abweichungen der Stichprobenmittelwerte vom Gesamtmittelwert, also der beobachteten Effekte des Faktors. • Bezeichnungen: SSB (Between), SSE (Explained), SSM (Model), SST (Treatment),
Varianzanalyse • Quadratsummenzerlegung: • SST = SSB + SSW • Interpretation: Gesamtvarianz (SST) setzt sich aus der Variation zwischen den Messreihen (SSB) und der Variation innerhalb der Messreihen (SSW) zusammen.
Varianzanalyse • Idee für Test: • Vergleich der Variation zwischen den Messreihen mit der Variation innerhalb der Messreihen • Ist die Variation zwischen den Messreihen größer als jene innerhalb der Messreihen, schließe auf Unterschied zwischen den Messreihen (Faktoreffekt).
Varianzanalyse • Teststatistik – Idee: • Aus den Beobachtungswerten werden zwei voneinander unabhängige Schätzwerte für sW² und sB² für die Varianzen der Beobachtungswerte innerhalb und zwischen den Stichproben bestimmt. • Liegen keine wahren Effekte vor (Gültigkeit von H0), sind sW² und sB² (bis auf zufällige Abweichungen) gleich. • Bei Vorhandensein von wahren Effekten (H1) ist sB² systematisch größer als sW².
Varianzanalyse • Erwartungstreuer Schätzer für die Varianz innerhalb der Messreihen (Restvarianz): • Erwartungstreuer Schätzer für die Varianz zwischen den Messreihen (Faktoreffekt)
Varianzanalyse • Mittlere Quadratsummen (MSS = Mean Sum of Squares): • Quadratsummen dividiert durch entsprechende Freiheitsgrade • MSB und MSW sind erwartungstreue Schätzer der Varianz zwischen- und innerhalb der Messreihen.
Varianzanalyse • Varianzanalysetafel (r Messreihen):
Varianzanalyse Teststatistik: • F = MSB / MSW • F ~ F(r-1),(N-r) • Entscheidung: Ist F ≤ Fc, lehne H0 nicht ab (Fc = kritischer Wert der F-Verteilung mit (r-1) und (N-r) Freiheitsgraden).
Varianzanalyse • Beispiel: Drahtsorten • Quadratsummenzerlegung: SST = SSB + SSW • 324,62 = 108,04 + 216,58 • Mittlere Quadratsummen: • MSB = 108,04 / (3-1) = 54,02 • MSW = 216,58 / (18-3) = 14,44 • Teststatistik: • F = MSB / MSW = 3,74 • Kritischer Wert der F2;15 Vt. 3,68 • Entscheidung: 3,74 > 3,68 => H0 ablehnen, d.h. es besteht ein signifikanter Unterschied zw. den Sorten
Varianzanalyse • Zweifache Varianzanalyse: • 2 Faktoren (A und B, wobei r Faktorstufen bei A und p Faktorstufen bei B) • 1 metrische Variable • Unterscheidung: • Modell ohne Wechselwirkungen zw. den Faktoren • Modell mit Wechselwirkungen zw. den Faktoren
Varianzanalyse • Modell ohne Wechselwirkungen zw. den Faktoren • xijk = µ + αi + βj + eijk (für i=1,…,r, j=1,…,p, k=1,…,n) • µ gemeinsamer Mittelwert • α, β Faktoreffekte • eijk zufällige Fehler
Varianzanalyse • Mittelwerte: • Gesamt • Faktor A • Faktor B
Varianzanalyse • Schätzer für Gesamtmittel und Effekte • Gesamtmittel • Effekt von Faktor A • Effekt von Faktor B
Varianzanalyse • Quadratsummen • SSR = SST – SSE(A) – SSE(B)
Varianzanalyse • Quadratsummenzerlegung • SST = SSE(A) + SSE(B) + SSR • Mittlere Quadratsummen: • MSE(A) = SSE(A) / (r-1) • MSE(B) = SSE(B) / (p-1) • MSR = SSR / (rpn-r-p+1)
Varianzanalyse • Prüfgrößen und kritische Werte: • Faktor A: • F(A) = MSE(A) / MSR • Fr-1,(nrp-r-p+1);1-α • Faktor B: • F(B) = MSE(B) / MSR • Fp-1,(nrp-r-p+1);1-α
Varianzanalyse • Beispiel: 2 Faktoren (Erreger, Antibiotikum)
Varianzanalyse • Modell mit Wechselwirkungen zw. den Faktoren • xijk = µ + αi + βj + (αβ)ij + eijk (für i=1,…,r, j=1,…,p, k=1,…,n) • µ gemeinsamer Mittelwert • α, β Faktoreffekte • αβ Wechselwirkung • eijk zufällige Fehler
Varianzanalyse • Mittelwerte: • Gesamt • Faktor A • Faktor B • Wechselwirkung
Varianzanalyse • Gesamtmittel und Effekte • Gesamtmittel • Effekt von Faktor A • Effekt von Faktor B • Effekt der Wechselwirkung
Varianzanalyse • Quadratsummen SSR = SST – SSE(A) – SSE(B) – SSE(AB)
Varianzanalyse • Quadratsummenzerlegung • SST = SSE(A) + SSE(B) + SSE(AB) + SSR • Mittlere Quadratsummen: • MSE(A) = SSE(A) / (r-1) • MSE(B) = SSE(B) / (p-1) • MSE(AB) = SSE(AB) / (p-1)(r-1) • MSR = SSR / (rpn-r-p+1)
Varianzanalyse • Prüfgrößen und kritische Werte: • Faktor A: • F(A) = MSE(A) / MSR • Fr-1, pr(n-1); 1-α • Faktor B: • F(B) = MSE(B) / MSR • Fp-1, pr(n-1); 1-α • Wechselwirkung: • F(AB) = MSE(AB) / MSR • F(p-1)(r-1), pr(n-1); 1-α
Varianzanalyse • Beispiel: 2 Faktoren + Wechselwirkung
Varianzanalyse • Beispiel: Varianzanalysetafel • Faktor Erreger: kein Effekt • Faktor Antibiotikum: Effekt • Interaktion: Effekt (impliziert, dass auch Faktor Erreger eine Wirkung hat).
Nichtparametrische ANOVA • Kruskal-Wallis Test • Unterscheiden sich die Mittelwerte von p Messreihen (n1, …, np)? • Voraussetzungen: • Stetige Verteilung der Messreihen • Mindestens Ordinalskala • Setzt weder Normalverteilung, noch Varianzhomogenität voraus. • Hypothese: • H0: Mittelwerte der p Messreihen sind gleich • H1: Mittelwerte unterscheiden sich
Nichtparametrische ANOVA • Vorgehensweise: • N Messwerten X11, …, Xpnp werden Rangzahlen rij zugewiesen. • Summe der Ränge der einzelnen Messreihen berechnen: • Bindungen (mehrere Messwerte sind gleich): Mittelwert der Ränge
Nichtparametrische ANOVA • Prüfgröße: • g … Anzahl der verschiedenen Messwerte • t … wie oft tritt ein Messwert auf • Treten keine Bindungen auf, ist B = 1
Nichtparametrische ANOVA • Entscheidung: • H0 ablehnen, wenn H > hp(n1,…,np);1-α • h … kritische Werte (Tabelle, z.B. Hartung S. 615) • Approximation durch χ²p-1,1-α Verteilung: • H0 ablehnen, wenn H > χ²p-1,1-α (Quantile der χ² Verteilung)
Regressionsanalyse • Beziehung zwischen zwei oder mehr metrisch skalierten Merkmalen. • Art der Abhängigkeit bestimmen, mathematische Funktion, durch die sich die Abhängigkeit zwischen den Variablen am besten beschreiben lässt.
Regressionsanalyse • Abhängige Variable (Regressand): Y • „zu erklärende Variable“ • Unabhängige Variable/n (Regressor): X • „erklärende Variable/n“ • Regressionsfunktion: Mathematische Funktion, die die Abhängigkeit zwischen den Variablen beschreibt. • Regression von Y auf X, Y=f(X).
Regressionsanalyse • Art der Beziehung zw. den Variablen? • Welche Form hat die Regressionsfunktion? • Antworten darauf aus: • Theorie • Empirische Beobachtung, z.B. Punktwolke zeichnen, welche Funktion passt sich gut an die Punktwolke an? Durch welche Funktion lässt sich die Grundtendenz des Zusammenhangs darstellen?
Regressionsanalyse • Punktwolke • Regressionsfunktion
Regressionsanalyse • Lineare Regression: • Regressionsfunktion ist linear • Nichtlineare Regression: • Regressionsfunktion ist nicht linear
Regressionsanalyse • Einfachregression: • Beziehung zwischen 2 Variablen • Regressand: Y • Regressor: X • Mehrfachregression = multiple Regression: • Beziehung zwischen 3 oder mehr Variablen • Regressand: Y • Regressoren: X1, X2, …, Xk