210 likes | 345 Views
Forschungsstatistik I. Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz. Stunde 07.12.04. Themen der Stunde. Merkmalszusammenhänge: Überblick und Gegenstand
E N D
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz Stunde 07.12.04
Themen der Stunde • Merkmalszusammenhänge: Überblick und Gegenstand • Zurückführen der Werte einer Variable auf eine andere: Regression • Lineare Regression: Y = a X + b
Merkmalszusammenhänge • Univariate Statistik: Beschreibung von einzelnen statistischen Größen • Bivariate Statistik: Beziehung zwischen 2 statistischen Variablen • Merkmalszusammenhang: Es besteht ein Zusammenhang zwischen 2 Variablen X und Y, wenn die Werte von X mit den Werten von Y „einhergehen“, bzw. in gewissem Grad „korrespondieren“.
Beispiele • Gibt es einen Zusammenhang von Drogenkonsum und mentaler Leistungsfähigkeit? • Kann man aus der Abinote die Note des Examens vorhersagen? • Haben Raucher häufiger Lungenkrebs als Nichtraucher? • Hängt der Therapieerfolg ab von einer positiven Einstellung zur Psychotherapie? [Beispiel: Schuh-und Körpergröße, Test-Retest]
Beispiel: Zusammenhang bei metrischen Daten Zusammenhänge von X und Y : Vorhersagbarkeit von Y aus X
Beispiel: Zusammenhang bei Nominaldaten (Häufigkeiten) Kein Zusammenhang der beiden Variablen Lungenkrebs (LK) und Rauchen (R) !
Beispiel: Zusammenhang bei Nominaldaten (Häufigkeiten) Maximaler Zusammenhang der beiden Variablen Lungenkrebs (LK) und Rauchen (R) !
Themengebiet Regression & Korrelation • Lineare Regression & Korrelation • Ausgleichspolynome n-ter Ordnung • Nichtlineare Regression:a) auf lineare Regression zurückführbare Modelleb) echte nichtlineare Modelle • Mehr als 2 Variablen: Multiple Regression & Korrelation
Kein Zusammenhang positiver Zusammenhang negativer Zusammenhang Merkmalszusammenhänge Für mindestens intervallskalierte Variablen erkennt man eine mögliche Beziehung im Scatterplot
Näherungskurven Näherungskurven können linear oder nichtlinear sein. Je mehr Parameter sie haben, desto schmiegsamer sind die Kurven
Zur Modellwahl • Regressionsmodelle können exploratorisch oder prüfend gewählt werden • Die Entscheidung über die Güte der Modellpassung wird anhand von Kennziffern der Vorhersageleistung getroffen • Je mehr Parameter ein Modell hat, desto eher kann es komplizierteren Verläufen der Daten folgen und verschiedene Trends abbilden • Vorhersageleistungen sind daher relativ zur Anzahl der freien Parameter zu bewerten
Lineare Näherungskurve • Lineare Näherung ist oft die zunächst einfachste • Gibt recht gut einen „Trend“ der Beziehung an: mehr geht oft nicht • Unterscheidung zwischen „empirischer“ und „theoretischer“ Näherungskurve
Modell: Fehler: Datenerklärung: Kriterium für die Parameterbestimmung Lineare Näherungskurve: Modellansatz Die lineare Näherungskurve („Regressionsgerade“) wird so bestimmt, daß die Summe der quadrierten Abweichungen der Y Werte von der Geraden minimal werden („Kleinstquadratkriterium“) [Tafelrechnung: Bestimmung der Normalgleichungen für die Parameter a0 und a1]
Modell: Die Normalgleichungen Regel: Multipliziere jede Seite der Gleichung nacheinander mit 1, x, x2,...,xk und summiere über die N- Fälle Für k = 1 (lineare Regression) ergibt das: Die Normalgleichungsregel führt für Polynome k-ter Ordnung stets auf dasselbe Gleichungssystem wie die Behandlung des Minimierungsproblems
Die Koeffizienten a0 und a1 Auflösen des Normalgleichungssystems nach a1 ergibt: Die Steigungskonstante a1 ergibt sich als Quotient der sog. Kovarianz und der Varianz der Variable x. [Tafelbehandlung]
Die Koeffizientena0unda1 Auflösen des Normalgleichungssystems nach a0: Der Schnittpunkt a0 läßt sich direkt aus der Steigungskonstanten und den beiden Mittelwerten errechnen
Varianzzerlegung Für die lineare Regression gilt die additive Varianzzerlegung Die Kriteriumsvarianz ist die Summe aus Vorhersagevarianz und Fehlervarianz
Wegen der Varianzzerlegung gilt Man definiert als Determinationskoeffizient Determinationskoeffizient Der Determinationskoeffizient gibt den Anteil der erklärten Varianz an der gesamten Kriteriumsvarianz an.
Ferner gilt (s. Steigungsdreieck) Und daher Woraus man für den Determinationskoeffizienten erhält Determinationskoeffizient Der Anteil der erklärten Varianz ist der Anteil der quadrierten Kovarianz an dem Produkt der beiden Varianzen.
Wegen gilt und daher Standardschätzfehler Der Standardschätzfehler beschreibt die Streuung um die Regressionsgerade. Er ist definiert als Anteil an der Streuung des Kriteriums, der zulasten der „Unzuverlässigkeit“ geht.
z - Werte Die Covarianz von z- Werten ist: Die Covarianz von z- standardisierten Variablen ist der sog. Pearson – Produkt – Moment Korrelationskoeffizient