220 likes | 331 Views
Multivariate Analysemethoden. Vorlesung. q-q-Plot Methode zur Prüfung der Multivariaten Normalverteilung. Günter Meinhardt Johannes Gutenberg Universität Mainz. Prüfung der NV-Annahme Klassifikation. Verteilungsanpassung/Prüfung. Prüfung der Verteilungs-annahme.
E N D
Multivariate Analysemethoden Vorlesung q-q-Plot Methode zur Prüfung der Multivariaten Normalverteilung Günter Meinhardt Johannes Gutenberg Universität Mainz
Prüfung der NV-Annahme Klassifikation Verteilungsanpassung/Prüfung Prüfung der Verteilungs-annahme • Ausreißeranalyse: Vor der Schätzung der Parameter (m,S) für die multivariate NV- wird eine Analyse der Rohdaten auf Ausreißer vorgenommen. • Effiziente Tests: Die NV- Annahme ist mit effektiven Methoden und trennscharfen Test zu prüfen, um ihre Gültigkeit sicherzustellen • Korrekturen und Datentransformationen: Ist die NV- Annahme auf den originalen Skalen verletzt, können Skalentransformationen für die einzelnen Variablen des Variablen- verbundes gefunden werden, mit denen die multivariate Normalver- auf den transformierten Skalen gilt.
Univariate Tests (1D) Klassifikation c2 - Test auf Die allgemeine Form des Chi – Quadrat für Häufigkeiten ist: Güte der Passung • Dieses Schema wird flexibel auf die jeweilige Fragestellung angewendet. • Die Frage ist, nach welchem Kriterium sich die erwarteten Häufigkeiten ergeben. Das einfache c2 hat k-1 Freiheitsgrade, die zugehörige Wahrscheinlichkeitsverteilung ist die c2 Verteilung. • Für den Test der Anpassung an die Normalverteilung werden die erwarteten Häufigkeiten aus den Wahrscheinlichkeiten der Quantil- Intervalle der Normalverteilung berechnet.
Univariate Tests (1D) Klassifikation c2 - Test auf Univariate Normalverteilung Güte der Passung • Die erwarteten relativen Häufigkeiten berechnet man aus der Differenz der Werte der Verteilungsfunktion für die exakten Intervallgrenzen. • Die erwarteten Häufigkeiten ergeben sich durch Multiplikation mit der Anzahl der Beobachtungen N. • Test mit progressivem alpha-Niveau, da man an der Absicherung für die Beibehaltung der H0 interessiert ist (a = mind. 10%).
100 100 300 300 500 500 700 700 900 900 1100 1100 1300 1300 Univariate Tests (1D) Klassifikation c2 - Test auf Univariate Normalverteilung Güte der Passung Beobachtet: oi erwartet als Normalverteilung: ei h(x) h(x) 4000 4000 3000 3000 2000 2000 1000 1000 x x h(x) 4000 3000 Vergleich: 2000 1000 x 100 300 500 700 900 1100 1300
Prüfung der NV-Annahme Klassifikation Tests der NV- Annahme Nachteile von • c2 Tests sind nicht sehr trennscharf und brauchen ein hohes N • Sie hängen von der Anzahl der Intervalle (Freiheitsgrade) ab • Sie können nur für die univariaten Verteilungen der einzelnen Meßvariablen durchgeführt werden (- Ausreisser durch spezielle Wertekombinationen in der multivariaten Verteilung können nicht aufgedeckt werden) c2 - Tests • Effektive Methoden: Methoden, die die Quantile der erwarteten und tatsächlichen Distanzen vom Zentroid verwenden, können univariat und multivariat verwendet werden • Effiziente Tests: Die Testung der Gleichheit von erwarteten und tatsächlichen Quantilen beruht auf einer trennscharfen Testung des Korrelationskoeffizienten (uni-und multivariat). Alternative: Q-Q Plot Methoden und Korrelations-Tests
Test der NV-Annahme (univariat) Klassifikation Identifikation von Ausreißern Data Clearing • Ausreißer sind heikel zu bestimmen, bei kleinen Stichproben N < 30 gibt es keine zuverlässigen Methoden • Bei N > 30 legt man die Quantile der Normalverteilung zugrunde und eliminiert die Werte, die jenseits der äußeren Quantile liegen. Dies sollten nicht mehr als 7%-8% sein. Ausreißer:
Test der NV-Annahme (univariat) Klassifikation Test über Quantilskorrelation Q-Q Plot Methode • Nach Ausreißerbereinigung werden den Meßwerten empirische Quantile qo (in z) zugeordnet über die sortierte Reihe der Meßwerte. • Mit aus den Daten geschätzten Parametern (m,s) werden für die Prozentränge erwartete Quantile qe (in z) bestimmt. • Man trägt qo (y-Achse) und qe (x-Achse) gegeneinander ab. Perfekte Passung liegt vor, wenn die Daten auf der Winkelhalbierenden liegen. • Man bestimmt Anteil der aufgeklärten Varianz und Korrelation. • Für den Korrelationskoeffizienten existieren kritische Werte, die beiUnterschreitung zur Ablehnung der NV-Annahme führen (s. Tabelle).
Test der NV-Annahme (univariat) Klassifikation Kritische Q-Q- Korrelationen Q-Q Plot Methode Korrelations-Test Ist rqq < rcrit(a), wird die Annahme der NV auf dem gewählten a Level verworfen. a sollte progressiv gewählt sein (10%), da man eine Sicherheit für die Beibehaltung wünscht.
Test der NV-Annahme (univariat) Klassifikation Datenbeispiel Q-Q Plot Methode mit 2 Ausreißern N = 30 Korrelations-Test NV Test knapp im Annahmebereich, aber 2 Ausreißer verschlechtern die Passung beträchtlich
Test der NV-Annahme (univariat) Klassifikation Datenbeispiel Q-Q Plot Methode ohne Ausreißer N = 28 Korrelations-Test NV Test und Varianzaufklärung zeigt perfekte der empirischen Quantile an die NV an.
Test der NV-Annahme (univariat) Klassifikation Datenbeispiel Q-Q Plot Methode Nichtlineare Abweichung N = 29 Korrelations-Test • NV Annahme ist heikel und sollte abgelehnt werden • Ausreißerentfernung würde Passung verbessern, aber die Art der Abweichung deutet auf eine systematische Transformation der Quantile
Test der NV-Annahme (univariat) Klassifikation Quantils-Transformation zur NV • Unsystematische Ausreißer sollten entfernt werden. • Bei systematischen Quantilsabweichungen können die Rohdaten einerPotenztransformation unterzogen werden, um eine gute Approximation an die NV zu erreichen. • Parameterschätzung für (m,s) der NV sind über die transformierten Daten auszuführen. Box-Cox-Power- Transformation maximiert nach k Die Power-Transformation g(x) liefert mit dem Wert k aus der Maximierung von l(k) die beste Annäherung an die NV
Test der NV-Annahme (univariat) Klassifikation Datenbeispiel nichtlineare Abweichung Q-Q Plot Methode Q-Q - Plot Maximierungsfunktion l(k) N = 29 k0 Potenztransformation der Originalskala: Optimale Potenz- Transformation Erneuter Q-Q Test
Test der NV-Annahme (univariat) Klassifikation Datenbeispiel nichtlineare Abweichung Q-Q Plot Methode Q-Q – Plot original Q-Q – Plot nach Potenztransformation h2 = .986 r = .993 h2 = .877 r = .937 berechnen z- transformieren Q-Q plotten Optimale Potenz- Transformation Potenztransformation bringt fast perfekte Passung der NV
Test der NV-Annahme (multivariat) Klassifikation Identifikation von Ausreißern Data Clearing p-dimensions • Auch im multivariaten Fall sind Ausreißer in kleinen Stichproben nicht zuverlässig bestimmbar, • Bei N > 30 legt man die Quantile der multivariaten Normalverteilung zugrunde (c2) und eliminiert die Beobachtungen, dessen quadrierte Mahalanobis-Distanzen jenseits der äußeren Quantile liegen. Dies sollten nicht mehr als 7%-8% sein. Ausreißer: [Excel-Beispiel q-q-Plot]
Test der NV-Annahme (multivariat) Klassifikation Test über Quantilskorrelation Q-Q Plot Methode multivariat • Nach Ausreißerbereinigung werden den Meßvektoren empirische Quantile qo zugeordnet über die Reihe der Meßwerte sortiert nach Mahalanobisdistanz. • Mit aus den Daten geschätzten Parametern (m,S) werden für die linearen Prozentränge erwartete Quantile qe aus der c2- Verteilung bestimmt. • Man trägt qo (y-Achse) und qe (x-Achse) gegeneinander ab. Perfekte Passung liegt vor, wenn die Daten auf der Winkelhalbierenden liegen. • Man bestimmt Anteil der aufgeklärten Varianz und Korrelation. • Für den Test des Korrelationskoeffizienten verfährt man exakt wie im univariaten Fall.
Test der NV-Annahme (multivariat) Klassifikation Datenbeispiel (p = 4 Variablen) Q-Q Plot Methode mit 3 Ausreißern N = 30 p = 4 Korrelations-Test • NV Test knapp im Annahmebereich, aber 2 Ausreißer verschlechtern die Passung beträchtlich, auch in den unteren Quantilen • Die beiden größten Ausreißer erfüllen das Kriterium, aber der 3. höchste Wert ist ebenfalls suspekt (hoher Intervallabstand)
Test der NV-Annahme (multivariat) Klassifikation Datenbeispiel (p = 4 Variablen) Q-Q Plot Methode ohne 3 Ausreißer N = 27 p = 4 Korrelations-Test NV Test zeigt nach Entfernung der höchsten 3 Werte (nicht nur 2) nun eine gute Passung der multivariaten NV
Test der NV-Annahme (multivariat) Klassifikation Allgemeines zur Verteilungskorrektur Ausreisser-Kontrolle • Ausreißerbereinigung sollte immer multivariat erfolgen, da ein Ausreisser in einer einzelnen Variable noch nicht einen Ausreißer im Variablenverbund definiert. • Das Entfernen extremer Beobachtungen ändert die Korrelationsmatrix, daher können iterative Bereinigungen nötig werden. Skalentransformationen Transformationen • Skalentransformationen können nur univariat erfolgen. (Keine Methode definiert eine Transformation für den Variablenverbund) • Es ist ratsam eine univariate Untersuchung systematischer Verteilungsabweichungen nach der multivariaten Ausreißerkontrolle durchzuführen, und die einzelnen Variablen mit geeigneten Potenz- transformationen zu korrigieren. • Sind die Randverteilungen (univariate) alle normal, so wird auch die multivariate Verteilung normalverteilt sein.
x2 Zentroid x1 Ausreisser in 2D Klassifikation Ausreißer als Distanz vom Zentroid univariat & multiv. multivariat aber nicht univariat Ausreisser in 2D: einer univariat & multivariat und einer multivariat
uni+multivariat multivariat multivariat Ausreisser in 2D Klassifikation Ausreisser in 4D: einer uni+multi und zwei multivariat Ausreißer als Distanz vom Zentroid