160 likes | 291 Views
Evaluation & Forschungsmethoden. q-q-Plot Methode zur Prüfung der Multivariaten Normalverteilung. Günter Meinhardt Johannes Gutenberg Universität Mainz. Prüfung der NV-Annahme Klassifikation. Verteilungsanpassung/Prüfung. Prüfung der Verteilungs-annahme.
E N D
Evaluation & Forschungsmethoden q-q-Plot Methode zur Prüfung der Multivariaten Normalverteilung Günter Meinhardt Johannes Gutenberg Universität Mainz
Prüfung der NV-Annahme Klassifikation Verteilungsanpassung/Prüfung Prüfung der Verteilungs-annahme • Ausreißeranalyse: Vor der Schätzung der Parameter (m,S) für die multivariate NV- wird eine Analyse der Rohdaten auf Ausreißer vorgenommen. • Effiziente Tests: Die NV- Annahme ist mit effektiven Methoden und trennscharfen Test zu prüfen, um ihre Gültigkeit sicherzustellen • Korrekturen und Datentransformationen: Ist die NV- Annahme auf den originalen Skalen verletzt, können Skalentransformationen für die einzelnen Variablen des Variablen- verbundes gefunden werden, mit denen die multivariate Normalver- auf den transformierten Skalen gilt.
Univariate Tests (1D) Klassifikation c2 - Test auf Die allgemeine Form des Chi – Quadrat für Häufigkeiten ist: Güte der Passung • Dieses Schema wird flexibel auf die jeweilige Fragestellung angewendet. • Die Frage ist, nach welchem Kriterium sich die erwarteten Häufigkeiten ergeben. Das einfache c2 hat k-1 Freiheitsgrade, die zugehörige Wahrscheinlichkeitsverteilung ist die c2 Verteilung. • Für den Test der Anpassung an die Normalverteilung werden die erwarteten Häufigkeiten aus den Wahrscheinlichkeiten der Quantil- Intervalle der Normalverteilung berechnet.
Univariate Tests (1D) Klassifikation c2 - Test auf Univariate Normalverteilung Güte der Passung • Die erwarteten relativen Häufigkeiten berechnet man aus der Differenz der Werte der Verteilungsfunktion für die exakten Intervallgrenzen. • Die erwarteten Häufigkeiten ergeben sich durch Multiplikation mit der Anzahl der Beobachtungen N. • Test mit progressivem alpha-Niveau, da man an der Absicherung für die Beibehaltung der H0 interessiert ist (a = mind. 10%).
100 100 300 300 500 500 700 700 900 900 1100 1100 1300 1300 Univariate Tests (1D) Klassifikation c2 - Test auf Univariate Normalverteilung Güte der Passung Beobachtet: oi erwartet als Normalverteilung: ei h(x) h(x) 4000 4000 3000 3000 2000 2000 1000 1000 x x h(x) 4000 3000 Vergleich: 2000 1000 x 100 300 500 700 900 1100 1300
Prüfung der NV-Annahme Klassifikation Tests der NV- Annahme Nachteile von • c2 Tests sind nicht sehr trennscharf und brauchen ein hohes N • Sie hängen von der Anzahl der Intervalle (Freiheitsgrade) ab • Sie können nur für die univariaten Verteilungen der einzelnen Meßvariablen durchgeführt werden (- Ausreisser durch spezielle Wertekombinationen in der multivariaten Verteilung können nicht aufgedeckt werden) c2 - Tests • Effektive Methoden: Methoden, die die Quantile der erwarteten und tatsächlichen Distanzen vom Zentroid verwenden, können univariat und multivariat verwendet werden • Effiziente Tests: Die Testung der Gleichheit von erwarteten und tatsächlichen Quantilen beruht auf einer trennscharfen Testung des Korrelationskoeffizienten (uni-und multivariat). Alternative: Q-Q Plot Methoden und Korrelations-Tests
Test der NV-Annahme (univariat) Klassifikation Identifikation von Ausreißern Data Clearing • Ausreißer sind heikel zu bestimmen, bei kleinen Stichproben N < 30 gibt es keine zuverlässigen Methoden • Bei N > 30 legt man die Quantile der Normalverteilung zugrunde und eliminiert die Werte, die jenseits der äußeren Quantile liegen. Dies sollten nicht mehr als 7%-8% sein. Ausreißer:
Test der NV-Annahme (univariat) Klassifikation Test über Quantilskorrelation Q-Q Plot Methode • Nach Ausreißerbereinigung werden den Meßwerten empirische Quantile qo (in z) zugeordnet über die sortierte Reihe der Meßwerte. • Mit aus den Daten geschätzten Parametern (m,s) werden für die Prozentränge erwartete Quantile qe (in z) bestimmt. • Man trägt qo (y-Achse) und qe (x-Achse) gegeneinander ab. Perfekte Passung liegt vor, wenn die Daten auf der Winkelhalbierenden liegen. • Man bestimmt Anteil der aufgeklärten Varianz und Korrelation. • Für den Korrelationskoeffizienten existieren kritische Werte, die beiUnterschreitung zur Ablehnung der NV-Annahme führen (s. Tabelle).
Test der NV-Annahme (univariat) Klassifikation Kritische Q-Q- Korrelationen Q-Q Plot Methode Korrelations-Test Ist rqq < rcrit(a), wird die Annahme der NV auf dem gewählten a Level verworfen. a sollte progressiv gewählt sein (10%), da man eine Sicherheit für die Beibehaltung wünscht.
Test der NV-Annahme (univariat) Klassifikation Datenbeispiel Q-Q Plot Methode mit 2 Ausreißern N = 30 Korrelations-Test NV Test knapp im Annahmebereich, aber 2 Ausreißer verschlechtern die Passung beträchtlich
Test der NV-Annahme (univariat) Klassifikation Datenbeispiel Q-Q Plot Methode ohne Ausreißer N = 28 Korrelations-Test NV Test und Varianzaufklärung zeigt perfekte der empirischen Quantile an die NV an.
Test der NV-Annahme (univariat) Klassifikation Datenbeispiel Q-Q Plot Methode Nichtlineare Abweichung N = 29 Korrelations-Test • NV Annahme ist heikel und sollte abgelehnt werden • Ausreißerentfernung würde Passung verbessern, aber die Art der Abweichung deutet auf eine systematische Transformation der Quantile
Test der NV-Annahme (univariat) Klassifikation Quantils-Transformation zur NV • Unsystematische Ausreißer sollten entfernt werden. • Bei systematischen Quantilsabweichungen können die Rohdaten einerPotenztransformation unterzogen werden, um eine gute Approximation an die NV zu erreichen. • Parameterschätzung für (m,s) der NV sind über die transformierten Daten auszuführen. Box-Cox-Power- Transformation maximiert nach k Die Power-Transformation g(x) liefert mit dem Wert k aus der Maximierung von l(k) die beste Annäherung an die NV
Test der NV-Annahme (univariat) Klassifikation Datenbeispiel nichtlineare Abweichung Q-Q Plot Methode Q-Q - Plot Maximierungsfunktion l(k) N = 29 k0 Potenztransformation der Originalskala: Optimale Potenz- Transformation Erneuter Q-Q Test
Test der NV-Annahme (univariat) Klassifikation Datenbeispiel nichtlineare Abweichung Q-Q Plot Methode Q-Q – Plot original Q-Q – Plot nach Potenztransformation h2 = .986 r = .993 h2 = .877 r = .937 berechnen z- transformieren Q-Q plotten Optimale Potenz- Transformation Potenztransformation bringt fast perfekte Passung der NV