350 likes | 488 Views
SS 2006 Langzeitauswirkungen von frühpädagogischen Betreuungen Statistische Auswertungsverfahren. Statistische Auswertungsverfahren. Analyse von Gruppenunterschieden. Grundideen. t-Test einfache und multiple Varianzanalyse Kovarianzanalyse. Analyse von Zusammenhängen. Korrelation
E N D
SS 2006 Langzeitauswirkungen von frühpädagogischen Betreuungen Statistische Auswertungsverfahren
Statistische Auswertungsverfahren • Analyse von Gruppenunterschieden Grundideen • t-Test • einfache und multiple Varianzanalyse • Kovarianzanalyse • Analyse von Zusammenhängen • Korrelation • Regression • hierarchische Regression
Gruppenunterschiede – t-Test • Werte von 2 Gruppen von Kindern in einer Variablen; z.B. von Mädchen (n1) und Jungen (n2) in einem Indikator des Sozialverhalten • Unterscheiden sich die beiden Gruppen signifi-kant, d.h. nicht nur zufällig, in dieser Variablen? • Das Merkmal Geschlecht, das die beiden Grup-pen definiert, wird unabhängige Variable oder Faktor genannt. • Der Indikator des Sozialverhaltens, der evtl. vom Geschlecht abhängig ist, wird abhängige Variable genannt. Fragestellung
Gruppenunterschiede – t-Test • Unterschiede schlagen sich in den Mittelwerten und in den Streuungen nieder. Getestet werden Mittelwertunterschiede. • Stichprobenmittelwerte können sich auch zu-fällig unterscheiden. Gefragt ist aber, ob die Mittelwerte in den beiden Grundgesamtheiten (Populationsmittelwerte) sich unterscheiden. • Einladung zu einem Gedankenspiel: Was heißt Unterschiede?
Gruppenunterschiede – t-Test • Wir ziehen nicht nur 1 Stichprobe von Mädchen und 1 Stich-probe von Jungen aus den jeweiligen Populationen, sondern sehr viele Paare von Stichproben mit fixem n1 und n2. • Wir berechnen für jedes Paar die Mittelwertdifferenz. • Unter der Annahme, dass zwischen den Mittelwerten in den Populationen kein Unterschied besteht, folgt die Verteilung der Stichprobendifferenzen einer bestimmten Form t-Ver-teilung (ab n1 + n2≥ 30 oder 50 Normalverteilung). • Diese t-Verteilung ist abhängig von den Stichprobenumfängen (n1 + n2) – genauer von den Freiheitsgraden (n1 + n2 – 2). • Aus der t-Verteilung kann abgelesen werden, wie wahrschein-lich Mittelwertdifferenzen sind, die größer als die von uns gefundenen sind. • Voraussetzung ist bei „kleinen Stichproben“ (n1 + n2≥ 30 oder 50): Merkmal muss normalverteilt sein.
Gruppenunterschiede – t-Test • Vergleich der gefundenen Stichprobendiffe-renz mit tabellierten „kritischen“ Werten: Ist die gefundene Differenz größer als der tabel-lierte Wert, wird die Nullhypothese verworfen. Ist sie kleiner oder gleich, wird sie beibehal-ten. • Je nach gewünschtem „Sicherheitsniveau“ müssen andere kritische Werte betrachtet werden. Üblicherweise 5 %-, 1 %- oder 0,1 %-Niveau, z.B. 5 %-Niveau: Ich akzeptiere, in weniger als 5 von 100 Fällen die Nullhypothe-se zu verwerfen, obwohl sie richtig ist.
Gruppenunterschiede – t-Test 6. Leider ist die Testgröße nicht die einfache Differenz zwischen den beiden Mittelwerten, sondern etwas komplizierter (das ist aber nur rechnen).
Gruppenunterschiede – t-Test • Achtung: Je größer n1 und n2 sind, desto eher wird ein Mittelwertunterschied statistisch sig-nifikant! Unterschied zwischen statistischer und praktischer Signifikanz. • t-Test für unabhängige Stichproben und t-Test für abhängige Stichproben
Gruppenunterschiede – einfache und multiple Varianzanalyse Einfache Varianzanalyse • Nicht mehr 2 Ausprägungen der unabhängigen Variablen, sondern mehrere; Beispiel: mütter-licher Bildungsabschluss in niedrig, mittel und hoch und der Einfluss auf das Sozialverhalten. • Frage nach dem Zusammenhang zwischen ei-ner qualitativen und einer quantitativen Varia-blen. • Frage nach den Unterschieden ist wieder Fra-ge nach den Mittelwertunterschieden in den Populationen.
Gruppenunterschiede – einfache und multiple Varianzanalyse 4. Formalisiert: • Nullhypothese H0: Alle Populationsmittel-werte sind gleich - μ1 = μ2 = μ3 • Alternativhypothese H1: Mindestens ein Mit-telwert unterscheidet sich von den anderen. • Welche Hypothese ist bei einem festzulegen-den Sicherheitsniveau wahrscheinlicher? 5. Grundidee: Wir setzen die Unterschiede zwi-schen den Gruppenmittelwerten in Bezie-hung zu den Unterschieden innerhalb der Gruppen.
Gruppenunterschiede – einfache und multiple Varianzanalyse Zwei Möglichkeiten: • Sind die Unterschiede zwischen den Grup-penmittelwerten klein im Verhältnis zu den Unterschieden innerhalb der Gruppen: Beibehalt von H0 = Ablehnung von Grup-penunterschieden • Sind die Unterschiede zwischen den Grup-penmittelwerten fast so groß wie die Unter-schiede innerhalb der Gruppen: Ablehnung von H0 = Annahme von Grup-penunterschieden
Gruppenunterschiede – einfache und multiple Varianzanalyse 6. Formalisierung der Grundidee: Zerlegung der Messwerte in: Es gilt dann (SAQ = Summe der Abweichungsquadrate): SAQs sind abhängig von den Fallzahlen Bildung mittlerer Abweichungsquadrate MAQ: g = Anzahl Gruppen N = Anzahl Fälle ins-gesamt
Gruppenunterschiede – einfache und multiple Varianzanalyse Testgröße ist dann: oder Der F-Wert wird mit tabellierten kritischen F-Werten verglichen (nachschauen α, Freiheitsgrade Zähler = g – 1; Freiheitsgrade Nenner = N – g): • falls unser F-Wert > dem tabellierten Wert Ablehnung von H0 • falls unser F-Wert ≤ dem tabellierten Wert Beibehalt von H0
Gruppenunterschiede – einfache und multiple Varianzanalyse 7. Bei Ablehnung von H0 wissen wir, dass mindestens ein Populationsmittelwert von den anderen verschieden ist. Aber wo liegen die Unterschiede? anschließender Test, z.B. DUNCAN-Test: Welche Sets von Mittelwerte unterschei-den sich signifikant und welche nicht?
Gruppenunterschiede – einfache und multiple Varianzanalyse Multiple oder mehrfaktorielle Varianzanalyse • Erweiterung: Wir haben nicht mehr nur einen Faktor (z.B. mütterlicher Bildungsstand), son-dern mehrere, die gleichzeitig auf die abhän-gige quantitative Variablen wirken (z.B. zu-sätzlich Zugehörigkeit zu Kindergarten A, B oder C). Was wirkt sich aus: • mütterlicher Bildungsstand (Haupteffekt) • Zugehörigkeit zu einem Kindergarten (Haupteffekt) • besondere Wechselwirkungen zwischen Bil-dungsstand und Kindergartenzugehörigkeit (Interaktionseffekt)
Gruppenunterschiede – einfache und multiple Varianzanalyse • Haupteffekte und Interaktionseffekte sollen unabhängig sein (Sonderfall gleiche Zellen-besetzungen – orthogonales Design; geht aber auch sonst) • Formalisiert: Nullhypothesen • HBildung 0: Bildungsstand hat keinen Effekt, • HZugehörigkeit 0: Zugehörigkeit hat keinen Effekt, • HInteraktion 0: es gibt keine Wechselwirkungen • sowie die entsprechenden Alternativhypo-thesen.
Gruppenunterschiede – einfache und multiple Varianzanalyse • Idee ist wieder, Unterschiede zwischen Grup-penmittelwerden in Beziehung zu den Unter-schieden innerhalb der Gruppen zu setzen. • Dazu berechnen wir: • Abweichungen der Gruppenmittelwerte im mütterlichen Bil-dungsstand vom Gesamtmittelwert (SAQBildung) • Abweichungen der Gruppenmittelwerte der verschiedenen Kindergärten vom Gesamtmittelwert (SAQZugehörigkeit) • Abweichungen der Gruppenmittelwerte einer Kombination (z.B. niedriger Bildungsstand in Kindergarten A) von dem, was man bei additiven Effekten erwarten kann (Summe der Mittelwerte in den Variablen Bildungsstand und Zugehörig-keit minus Gesamtmittelwert) (SAQInteraktion) • restliche Abweichungen innerhalb jeder Kombination (SAQResidual)
Gruppenunterschiede – einfache und multiple Varianzanalyse Es werden dann die jeweiligen mittleren Abweichungsquadrate (MAQ) gebildet: • MAQBildung = SAQBildung / dfBildung • mit dfBildung = Anzahl Kategorien Bildung – 1 • MAQZugehörigkeit = SAQZugehörigkeit / dfZugehörigkeit • mit dfZugehörigkeit = Anzahl Kategorien Zugehörigkeit - 1 • MAQInteraktion = SAQInteraktion / dfInteraktion • mit dfInteraktion = dfBildung x dfZugehörigkeit • MAQResidual = SAQResidual / dfResidual • mit dfResidual = N – (Anzahl Kategorien Bildung x Anzahl Kategorien Zugehörigkeit)
Gruppenunterschiede – einfache und multiple Varianzanalyse • Für das Testen einer Quelle für Unterschie-die werden jeweils die MAQ dieser Quelle durch die MAQResidual dividiert (F-Wert). • Der kritische F-Wert wird bestimmt durch α, df der Quelle (df Zähler) und dfResidual (df Nenner)
Gruppenunterschiede – einfache und multiple Varianzanalyse • Beispiel: Nachschauen in F-Tabelle für α,df Zäh-ler und df Nenner • falls unser F-Wert > dem tabellierten Wert Ablehnung von H0 • falls unser F-Wert ≤ dem tabellierten Wert Beibehalt von H0
Gruppenunterschiede – Kovarianzanalyse • 1. Problemstellung: Vergleich des Sozialverhal-tens von Kindern aus einer Experimental- und einer Kontrollgruppe bei evtl. unter-schiedlicher Ausgangslage • Beispiel: Evaluation des „Kindergartens der Zukunft in Bayern – KiDZ“ • t-Test oder Varianzanalyse geben nur eine unbefriedigende Antwort auf die Forschungs-frage. • Gewünscht: nachträgliche „Angleichung“ der Ausgangslage der Kinder Kovarianzanalyse
Gruppenunterschiede – Kovarianzanalyse • Sprachgebrauch: Die Variable, in der die Kin-der „angeglichen“ werden sollen, wird Kova-riate genannt. • Grundidee: Wir filtern den Effekte der Kova-riaten aus der abhängigen Variablen heraus und führen mit der „bereinigten“ abhängigen Variablen eine einfache Varianzanalyse (Fak-tor: Zugehörigkeit zur Experimental- oder Kontrollgruppe) durch. • Herausfiltern technisch: Wir führen eine Re-gression der abhängigen Variablen auf die Kovariate durch und berechnen die Residual-variable.
Gruppenunterschiede – Kovarianzanalyse 7. Vielfältige Erweiterungsmöglichkeiten: • mehrere Kovariaten • mehrere Faktoren • mehrere Kriterien gleichzeitig
Zusammenhänge – Korrelation 1. Fragestellung • Gibt es einen Zusammenhang zwischen zwei quantitativen Variablen? • Beispiel: Zusammenhang zwischen Kör-pergröße und Gewicht = Frage nach dem durchschnittlichen Zusammenhang: • Ist im Durchschnitt jemand, der schwerer als der Durchschnitt ist, auch größer als der Durchschnitt? pos. Zusammenhang • Ist im Durchschnitt jemand, der schwerer als der Durchschnitt ist, kleiner als der Durchschnitt? neg. Zusammenhang
Zusammenhänge – Korrelation • Zusammengang meint damit das Überwie-gen von gleichläufigen oder gegenläufigen Abweichungen vom Mittelwert 2. Technische Umsetzung: Korrelation (genauer: Produkt-Moment-Korrelation) • Bildung der Kreuz-Produkt-Summe • Problem: Kreuz-Produkt-Summe ist abhängig von n, deshalb Division durch = Kovarianz = sxy
Zusammenhänge – Korrelation • Problem: Kovarianz hängt von den Skalen von x und y ab. Um die unterschiedlichen Skalen herauszubekom-men, wird durch die Standardabweichungen von x und y dividiert. Dadurch liegt der Korrelationskoeffizient immer zwischen -1 und +1; d.h., er ist auf diesen Bereich stan-dardisiert:
Zusammenhänge – Korrelation 3. Besonderheiten der Korrelation • Korrelation sagt nichts über Kausalität aus! • rxy = standardisiertes Maß. Es verändert sich nicht bei Standardisierung der Variablen. • Das Vorzeichen gibt die Richtung an. • Die Zahl sagt „etwas“ zur Größe des Zusam-menhangs aus; man kann sagen, welcher Zusammenhang größer ist. • Absolutes Maß für einen Zusammenhang ist das Quadrat von rxy (Anteil der gemeinsa-men Varianz). • rxy gilt nur für lineare Zusammenhänge.
Zusammenhänge – Regression 1. Fragestellung • Kann ich aufgrund der Werte einer Varia-blen (x) die Werte in einer anderen Varia-blen (y) vorhersagen, schätzen? • Beispiel: Kann ich aufgrund der Intelligenz eines Kindes sein Sozialverhalten vorher-sagen? • x wird Prädiktor und y Kriterium genannt. • y wird kaum exakt vorgesagt werden können. Wir können nur schätzen; die Schätzvariable wird mit ŷ bezeichnet.
Zusammenhänge – Regression • Eine Schätzung ist dann gut, wenn für je-den Fall die Differenz zwischen gegebe-nem Wert yi und dem Schätzwert ŷi (auf-grund der Kenntnis von xi) klein ist, d.h. • für alle Fälle muss (ŷi – yi) minimiert werden, • da sich bei der Summenbildung Abwei-chungen nach oben und unten ausglei-chen, wird über alle Fälle (ŷi – yi)2 mini-miert = Kleinstquadratkriterium. • Im Folgenden beschränkt auf lineare Be-ziehungen.
Zusammenhänge – Regression 2. Technische Umsetzung: • Im Falle einer linearen Gleichung liegen für alle Fälle i die Schätzwerte auf der Gerade: mit b = Steigung der Geraden und a = Schnittpunkt auf der y-Achse • Gesucht sind dann a und b so, dass die Summe aller Ab-weichungsquadrate (ŷi – yi)2 minimiert wird. • Mathematisch letztlich einfach und bekannt: Bilden der 1. Ableitung usw. • b = sxy2 / sx2; a = y¯ – bx¯. • b = Regressionskoeffizient = Um wie viele Einheiten verän-dert sich ŷi, wenn ich x um eine Einheit verändere. • a = Regressionskonstante, gleicht die unterschiedlichen Ska-len von x und y aus.
Zusammenhänge – Regression 3. Besonderheiten der Regression: • a und b hängen davon ab, was Prädiktor und was Kriterium ist. • Anders als bei der Korrelation: a und b än-dern sich, wenn die Variablen standardi-siert werden. • Im Fall der einfachen Regression mit nur einem Prädiktor a = 0 und b = rxy. • Anteil der erklärten Varianz = rxy2 • Anteil der nicht erklärten Varianz = 1 - rxy2
Zusammenhänge – Regression 4. Besonderheiten der multiplen Regression: • Um ein Kriterium y angemessen vorhersa-gen zu können, benötigt man in der Realität mehrere Prädiktoren x1 bis xn. • In der Realität korrelieren Prädiktoren mit-einander. Wir sind aber speziell auch an den jeweils eigenständigen Beiträgen der Prädiktoren interessiert. • Gleichzeitig ist aber auch die gesamte Er-klärungskraft eines Satzes von Prädiktoren wichtig.
Zusammenhänge – Regression • Die multiple Regressionsrechnung gibt uns für jeden Prädiktor k einen Regressions-koeffizienten bk, der die eigenständige Bedeutung indiziert (bildlich = wenn alle anderen Prädiktoren gleich wären). • Ebenfalls erhalten wir einen Wert für die Gesamtbedeutung: R2 = Anteil der im Kri-terium durch alle Prädiktoren gemeinsam erklärten Varianz. • Die bk hängen jeweils von den Skalengrö-ßen ab (schwierig zu interpretieren) Standardisierung aller Variablen ßk
Zusammenhänge – Regression • -1 ≤ ßk≤ Um wie viele Standardeinheiten verändert sich y, wenn ich den Prädiktor k um eine Standardeinheit verändere. • Achtung: In der multiplen Regression sind die Regressionskoeffizienten aus Analysen mit standardisierten Variablen nicht mehr identisch mit den Korrelation.
Zusammenhänge – Regression Hierarchische Regression • Oftmals sind wir daran interessiert, was ver-schiedene (Teil-) Blöcke von Prädiktoren für eine gemeinsame Bedeutung haben. • Evtl. ist auch von Bedeutung, was ein Block dann noch erklärt, wenn andere schon be-rücksichtigt sind. • Grundidee der hierarchischen Regression: • Blöcke werden nacheinander betrachtet. Bei dem jeweils späteren Block wird nur das berücksichtig, was der vorherige nicht bereits erklärt hat.