270 likes | 734 Views
Lineare Regressionsanalyse mit SPSS von Susanne Konrath . Inhaltsverzeichnis Bestehenden Datensatz importieren Neue Daten eingeben Start der linearen Regression Dialogbox lineare Regression Festlegen der Regressionsgleichung Festlegen von Blöcken und der Variablenselektionsmethode
E N D
Lineare Regressionsanalyse mit SPSS von Susanne Konrath Inhaltsverzeichnis • Bestehenden Datensatz importieren • Neue Daten eingeben • Start der linearen Regression • Dialogbox lineare Regression • Festlegen der Regressionsgleichung • Festlegen von Blöcken und der Variablenselektionsmethode • Zu der Variablebselektionsmethoden • Mögliche Bedingungen • Gewichtete Regression • Statistiken • Diagramme • Speichern • Optionen • Anpassungslinien in Streudiagramm zeichnen • Anhang: Mehr zur Regression
Nach dem Start von SPSS öffnet sich automatisch der Daten-Editor Es können hier bestehende Daten mit Hilfe der Menüwahl Datei>Öffnen>Daten geladen werden. Es können verschiedene Dateitypen geladen werden. Der Import wird durch eine Dialogbox gesteuert. Bestehenden Datensatz importieren
Neue Variablen können mit der Registerkarte „Variablenansicht“ am unteren Rand des Spreadsheets definiert werden. Die neuen Daten können dann in der „Datenansicht“ eingegeben werden. Neue Daten eingeben Variablendefinition Dateneingabe
Start der linearen Regression • Auswahl des Menüpunktes „Linear...“ unter Analysieren Regression Linear...
Es öffnet sich die Dialogbox „Lineare Regression“ Alle zur Verfügung stehenden Variablen befinden sich im linken Feld Zur Variablenselektion ist die Methode Einschlußverfahren voreingestellt Dialogbox lineare Regression
Die abhängige Variable (hier: y) und die unabhängigen Variablen (hier: x1, x2) werden durch ziehen mit der Maus in die dafür vorgesehenen Felder eingefügt Der Intercept (hier: x0) muß nicht extra mit in die Modellgleichung aufgenommen werden Festlegen der Regressionsgleichung
Durch die Auswahl der Methode kann festgelegt werden, wie unabhängige Variablen in die Analyse eingeschlossenen werden. Die verfügbaren Methoden sind: Einschluß Auschluß Vorwärts Rückwärts Schrittweise Es besteht die Möglichkeit die unabhängigen Variablen in Blöcke zusammenzufassen. Es können dann verschiedene Methoden für unterschiedliche Untergruppen von Variablen angegeben werden. Beispielsweise kann man einen Block von Variablen durch schrittweises Auswählen und einen zweiten Block durch Vorwärtsselektion in das Regressionsmodell einschließen. Festlegen von Blöcken und der Variablenselektionsmethode Bestimmung von Variablenblöcken Einstellung des Verfahrens zur Variablenselektion pro Block
Zu den Variablenselektionsmethoden • Einschluß Alle unabhängigen Variablen des Blockes werden auf einmal in die Analyse einbezogen. • Auschluß Um die Variablen in einem einzigen Schritt aus dem Block zu entfernen Schrittweise Methoden • Vorwärts Es werden nacheinander die Variablen des Blockes mit dem höchsten partiellen Korrelationskoeffizienten mit der abhängigen Variablen in die Gleichung aufgenommen • Rückwärts Zunächst werden alle unabhängige Variablen des Blockes in einem einzigen Schritt in die Gleichung eingeschlossen und anschließend diejenigen Variablen mit dem kleinsten partiellen Korrelationskoeffizienten mit der abhängigen Variablen nacheinander entfernt soweit der zugehörige Regressionskoeffizient nicht signifikant ist (Signifikanzniveau: 0,1) • Schrittweise Funktioniert ähnlich wie die Vorwärtsmethode. Allerdings werden nach jedem Schritt die jeweils aufgenommenen Variablen nach der Rückwärtsmethode untersucht.
Es kann eine Auswahlvariable zum Begrenzen der Analyse auf eine Untergruppe von Fällen mit einem bestimmten Wert oder bestimmten Werten für diese Variable angegeben werden. Es können Variablen zur Fallunterscheidung unter Fallbeschriftungen ausgewählt werden, um Punkte in Diagrammen zu identifizieren. Mögliche Bedingungen (optional)
Gewichtete kleinste Quadrate (WLS) geben Beobachtungen verschiedene Gewichtungen, zum Beispiel zum Ausgleich unterschiedlicher Meßgenauigkeit. Als Gewicht kann nur eine numerische Variable verwendet werden Die effektive Stichprobengröße wird nicht geändert. Gewichtete Regression (optional)
Regressionskoeffizienten Mit Schätzer werden die Regressionskoeffizienten B = Betadach, die Standardfehler von B, das Beta des standardisierten Koeffizienten?, die t-Werte für B und das zweiseitige Signifikanzniveau von t angezeigt. ->Viewer: Koeffizienten Mit Konfidenzintervalle werden die individuellen 95%-Konfidenzintervalle für jeden Regressionskoeffizienten angezeigt. ->Viewer: Koeffizienten Mit Kovarianzmatrix wird eine Varianz-Kovarianz-Matrix und die Korrelationsmatrix der Regressionskoeffizienten angezeigt ->Viewer: Korrelation der Koeffizienten Statistiken
Anpassungsgüte des Modells Die aufgenommenen und entfernten Variablen aus dem Modell werden aufgelistet ->Viewer: Aufgenommene/Entfernte Variable Die folgenden Statistiken der Anpassungsgüte werden angezeigt: multiples R, R-Quadrat und korrigiertes R-Quadrat, Standardfehler des Schätzers ->Viewer: Modellzusammenfassung Und die Tabelle zur Varianzanalyse. ->Viewer: ANOVA Änderung in R-Quadrat Hier werden Änderung in R-Quadrat, Änderung in F und die Signifikanz der Änderung in F angezeigt. (siehe z.B. Toutenburg, LINEARE MODELLE, 2. Auflage, 2003, S147f.) ->Viewer: Modellzusammenfassung, Änderungsstatistiken Deskriptive Statistik Liefert die Anzahl gültiger Fälle, Mittelwert und Standardabweichung für jede Variable in der Analyse. ->Viewer: Deskriptive Statistiken Außerdem wird eine Korrelationsmatrix der Variablen nach Pearson mit einem einseitigen Signifikanzniveau und die Anzahl der Fälle für jede Korrelation angezeigt. ->Viewer: Korrelationen Statistiken
Teil- und partielle Korrelationen Hiermit werden Korrelationen nullter Ordnung, Teil- und partielle Korrelationen ? angezeigt. ->Viewer: Koeffizienten, Korrelationen Kollinearitätsdiagnose Eigenwerte derskalierten und unzentrierten Kreuzproduktmatrix, Konditionsindex, Proportionen der Varianzzerlegung ->Viewer: Kollinearitätsdiagnose Varianzfaktoren (VIF),Toleranzen für einzelne Variablen ->Viewer: Koeffizienten Residuen Durbin-Watson-Test für Reihenkorrelationen der Residuen ->Viewer: Modellzusammenfassung Fallweise Diagnose für die Fälle, die das Auswahlkriterium (Ausreißer über n Standardabweichungen) erfüllen werden standardisierte, nichtstandardisierte Residuen, nichtstandardisierter Vorhersagewert ausgegeben. ->Viewer: Fallweise Diagnose Statistiken
Streudiagramme Es können je zwei der folgenden Elemente aufgetragen werden: DEPENDENT die abhängige Variable Y *ZPRED standardisierte vorhergesagte Werte für Y *ZRESID standardisierte Residuen *DRESID ausgeschlossene Residuen *ADJPRED korrigierte vorhergesagte Werte *SRESID studentisierte Residuen *SDRESID studentisierte ausgeschlossene Residuen Es können mehrere Streudiagramme im Feld „Streudiagramm 1 von 1“ über die Schaltfläche Weiter erzeugt werden. Diagramme
Alle partiellen Diagramme erzeugen. Erzeugt Streudiagramme der Residuen aller unabhängigen Variablen und der Residuen der abhängigen Variablen, wenn für den Rest der unabhängigen Variablen beide Variablen einer getrennten Regression unterzogen werden. Zum Erzeugen eines partiellen Diagramms müssen mindestens zwei unabhängige Variablen in der Gleichung enthalten sein. Diagramme der standardisierten Residuen. Histogramme standardisierter Residuen Normalverteilungsdiagramme, welche die Verteilung standardisierter Residuen mit einer Normalverteilung vergleichen. Bemerkung: Beim Anfordern von Diagrammen werden Auswertungsstatistiken für standardisierte vorhergesagte Werte und standardisierte Residuen (*ZPRED und *ZRESID) angezeigt. Diagramme
Mit jedem Auswahlvorgang werden der Datendatei die ausgewählten Größen als neue Variablen hinzugefügt. Vorhergesagte Werte. Dies sind die nach dem Regressionsmodell für die abhängige Variable vorhersagten Werte. Nicht standardisiert (pre*) Standardisiert (zpr*) Korrigiert (adj*) Standardfehler des Mittelwerts (sep*) ->Viewer: Residuenstatistik Speichern
Distanzen Dies sind Maße zum Auffinden von Fällen mit ungewöhnlichen Wertekombinationen bei der unabhängigen Variablen und von Fällen, die einen großen Einfluß auf das Modell haben könnten. Mahalanobis (mah*) Nach Cook (coo*) Hebelwerte (lev*) ->Viewer: Residuenstatistik Vorhersageintervalle Die oberen und unteren Grenzen sowohl für Mittelwert als auch für einzelne Vorhersageintervalle. Mittelwert (lmci*,umci*) Individuell (lici*,uici*) Konfidenzintervall Speichern
Residuen Der tatsächliche Wert der abhängigen Variablen minus dem vorhergesagten Wert aus der Regressionsgleichung. Nicht standardisiert (res*) Standardisiert (zre*) Studentisiert (sre*) Ausgeschlossen (dre*) Studentisiert, ausgeschlossen (sdr*) ->Viewer: Residuenstatistik Einflußstatistiken Die Änderung in den Regressionskoeffizienten und vorhergesagten Werten, die sich aus dem Ausschluß eines bestimmten Falls ergibt. DfBeta:(dfb0*,dfb1*, ...) Regressionskoeffizienten Standardisierte(s) DfBeta:(sdb0*,sdb1*, ...) DfFit: (dff*) vorhergesagten Werten Standardisiertes DfFit (sdf*) Kovarianzverhältnis:(cov*) Dies ist das Verhältnis der Determinante der Kovarianzmatrix für einen bestimmten ausgeschlossenen Fall zur Determinante der Kovarianzmatrix für alle Fälle. Speichern
In neuer Datei speichern Hiermit werden Regressionskoeffizienten in einer anzugebenen Datei gespeichert. Modellinformation in XML-Datei exportieren Hiermit werden Modellinformationen in die angegebene Datei exportiert. Diese Datei kann von SPSS-Zusatzprodukten wie SmartScore und zukünftigen Versionen von WhatIf? verwendet werden. Speichern
Kriterien für schrittweise Methode. Diese Optionen eignen sich für den Fall, daß die Vorwärts-, Rückwärts- oder schrittweise Methode der Variablenauswahl angegeben wurde. Variablen im Modell werden eingeschlossen/entfernt in Abhängigkeit von F-Wahrscheinlichkeit, d.h. der Signifikanz (Wahrscheinlichkeit) des F-Werts F-Wert Optionen
Konstante in Gleichung einschließen Als Voreinstellung enthält das Regressionsmodell einen konstanten Term (intercept). Wenn diese Option deaktiviert ist, wird die Regression durch den Ursprung gezwungen. Achtung: Manche Resultate einer durch den Ursprung verlaufenden Regression lassen sich nicht mit denen einer Regression vergleichen, die eine Konstante aufweist. Beispielsweise kann R-Quadrat nicht in der üblichen Weise interpretiert werden. Tip:Option deaktivieren und Intercept eigenhändig als Variable einfügen. Dies führt zur vollständigen Ausgabe der Kovarianzmatrix und der Korrelationsmatrix Fehlende Werte Listenweiser Fallausschluß. Nur Fälle mit gültigen Werten für alle Variablen werden in die Analyse einbezogen. Paarweiser Fallausschluß. Fälle mit vollständigen Daten für das korrelierte Variablenpaar werden zum Berechnen des Korrelationskoeffizienten verwendet, auf dem die Regressionsanalyse basiert. Durch Mittelwert ersetzen. Alle Fälle werden für Berechnungen verwendet, wobei der Mittelwert der Variablen die fehlenden Beobachtungen ersetzt. Optionen
Anpassungslinien in Streudiagramm zeichnen Doppelklick auf das Streudiagramm, dann Diagramme Optionen...
Folgende Menüpunkte stehen zur Verfügung unter Analysieren Regression Linear... Abhängige Variable: intervallskaliert / ordinalskaliert. Unabhängige Variablen: beliebiges Skalenniveau Anhang: Mehr zur Regression
Kurvenanpassung... Mit der Prozedur "Kurvenanpassung" werden Regressionsstatistiken zur Kurvenanpassung und zugehörige Diagramme für 11 verschiedene Regressionsmodelle zur Kurvenanpassung erstellt. Binär logistisch... Binär logistisch... Abhängige Variable: dichotom, d.h. 2 Kategorien Unabhängige Variablen: beliebiges Skalenniveau Multinomial logistisch... Abhängige Variable: mehr als 2 Kategorien, nominal Unabhängige Variablen: nominal / ordinal Ordinal... (ab V.10.0) Abhängige Variable: mehr als 2 Kategorien, ordinal Unabhängige Variablen: nominal / ordinal Probit... Dosis-Wirkungskurven-Analyse.Diese Prozedur mißt die Beziehung zwischen der Stärke eines Stimulus und dem Anteil der Fälle, die eine bestimmte Response auf den Stimulus zeigen. Anhang: Mehr zur Regression
Nichtlinear... Mit der nichtlinearen Regression können Modelle mit willkürlichen Beziehungen zwischen den abhängigen und unabhängigen Variablen geschätzt werden. Dies wird durch den Einsatz eines iterativen Schätzungsalgorithmus erreicht. Gewichtungsschätzung... Bei Verletzung der Varianzhomogenitätliefert die lineare Regression unter Verwendung der gewöhnlichen kleinsten Quadrate keine optimalen Modellschätzungen. Wenn die Differenzen in der Variabilität von einer anderen Variablen vorhergesagt werden können, dann können die Koeffizienten eines linearen Regressionsmodells mit der Prozedur "Gewichtungsschätzung" unter Verwendung von gewichteten kleinsten Quadraten (WLS) berechnet werden. Dabei wird den genaueren Beobachtungen (jene mit kleinerer Variabilität) ein größeres Gewicht beim Bestimmen der Regressionskoeffizienten zugewiesen. Mit der Prozedur "Gewichtungsschätzung" werden eine Reihe von Gewichtungstransformationen getestet, und es wird angezeigt, welche die beste Anpassung an die Daten ergibt. Zweistufige kleinste Quadrate... Standardmodelle für die lineare Regression gehen davon aus, daß Fehler in der abhängigen Variablen nicht mit den unabhängigen Variablen korrelieren. Ist dies nicht der Fall (zum Beispiel, wenn zwischen den Variablen eine Wechselwirkung besteht), dann liefert die lineare Regression unter Verwendung von gewöhnlichen kleinsten Quadraten keine optimalen Modellschätzungen mehr. Man verwendet die zweistufige Regressionsmethode der kleinsten Quadrate. Anhang: Mehr zur Regression
Optimale Skalierung... Durch die kategoriale Regression werden kategoriale Daten quantifiziert, indem den Kategorien numerische Werte zugewiesen werden. Dadurch ergibt sich für die transformierten Variablen eine optimale lineare Regressionsgleichung. Das Standardverfahren der linearen Regressionsanalyse beinhaltet die Minimierung der Summe von quadrierten Differenzen zwischen einer Antwortvariablen (abhängig) und einer gewichteten Kombination von Einflußvariablen (unabhängig). Variablen sind in der Regel quantitativ, wobei (nominale) kategoriale Daten in Binär- oder Kontrastvariablen umkodiert werden. Infolgedessen dienen kategoriale Variablen einer Aufteilung in verschiedene Gruppen von Fällen, so daß jeweils separate Parametersätze für jede Gruppe geschätzt werden. Die geschätzten Koeffizienten geben die Auswirkung einer Änderung in den Einflußvariablen auf die Antwortvariable wider. Die Antwort kann für jede beliebige Kombination von Einflußwerten vorhergesagt werden. Eine andere Methode besteht darin, daß die Antwort auf die kategorialen Einflußwerte selbst einer Regression unterzogen wird. Folglich wird für jede Variable ein Koeffizient geschätzt. Bei kategorialen Variablen sind die Kategoriewerte jedoch willkürlich. Durch verschiedene Kodierungsarten der Kategorien ergeben sich jeweils unterschiedliche Koeffizienten, wodurch ein analysenübergreifender Vergleich gleicher Variablen erschwert wird. CATREG erweitert die Standardmethode durch eine gleichzeitige Skalierung nominaler, ordinaler und numerischer Variablen. Die Prozedur quantifiziert kategoriale Variablen, so daß in den Quantifikationen die Merkmale der ursprünglichen Kategorien zum Ausdruck kommen. Dadurch werden quantifizierte kategoriale Variablen auf dieselbe Weise wie numerische Variablen behandelt. Durch die Verwendung nichtlinearer Transformationen können Variablen auf einer Vielzahl von Ebenen analysiert und somit das jeweils geeignetste Modell gefunden werden. Anhang: Mehr zur Regression