1 / 22

Multivariate Analysemethoden

Multivariate Analysemethoden. Vorlesung. q-q-Plot Methode zur Prüfung der Multivariaten Normalverteilung. Günter Meinhardt Johannes Gutenberg Universität Mainz. Prüfung der NV-Annahme Klassifikation. Verteilungsanpassung/Prüfung. Prüfung der Verteilungs-annahme.

Download Presentation

Multivariate Analysemethoden

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Multivariate Analysemethoden Vorlesung q-q-Plot Methode zur Prüfung der Multivariaten Normalverteilung Günter Meinhardt Johannes Gutenberg Universität Mainz

  2. Prüfung der NV-Annahme Klassifikation Verteilungsanpassung/Prüfung Prüfung der Verteilungs-annahme • Ausreißeranalyse: Vor der Schätzung der Parameter (m,S) für die multivariate NV- wird eine Analyse der Rohdaten auf Ausreißer vorgenommen. • Effiziente Tests: Die NV- Annahme ist mit effektiven Methoden und trennscharfen Test zu prüfen, um ihre Gültigkeit sicherzustellen • Korrekturen und Datentransformationen: Ist die NV- Annahme auf den originalen Skalen verletzt, können Skalentransformationen für die einzelnen Variablen des Variablen- verbundes gefunden werden, mit denen die multivariate Normalver- auf den transformierten Skalen gilt.

  3. Univariate Tests (1D) Klassifikation c2 - Test auf Die allgemeine Form des Chi – Quadrat für Häufigkeiten ist: Güte der Passung • Dieses Schema wird flexibel auf die jeweilige Fragestellung angewendet. • Die Frage ist, nach welchem Kriterium sich die erwarteten Häufigkeiten ergeben. Das einfache c2 hat k-1 Freiheitsgrade, die zugehörige Wahrscheinlichkeitsverteilung ist die c2 Verteilung. • Für den Test der Anpassung an die Normalverteilung werden die erwarteten Häufigkeiten aus den Wahrscheinlichkeiten der Quantil- Intervalle der Normalverteilung berechnet.

  4. Univariate Tests (1D) Klassifikation c2 - Test auf Univariate Normalverteilung Güte der Passung • Die erwarteten relativen Häufigkeiten berechnet man aus der Differenz der Werte der Verteilungsfunktion für die exakten Intervallgrenzen. • Die erwarteten Häufigkeiten ergeben sich durch Multiplikation mit der Anzahl der Beobachtungen N. • Test mit progressivem alpha-Niveau, da man an der Absicherung für die Beibehaltung der H0 interessiert ist (a = mind. 10%).

  5. 100 100 300 300 500 500 700 700 900 900 1100 1100 1300 1300 Univariate Tests (1D) Klassifikation c2 - Test auf Univariate Normalverteilung Güte der Passung Beobachtet: oi erwartet als Normalverteilung: ei h(x) h(x) 4000 4000 3000 3000 2000 2000 1000 1000 x x h(x) 4000 3000 Vergleich: 2000 1000 x 100 300 500 700 900 1100 1300

  6. Prüfung der NV-Annahme Klassifikation Tests der NV- Annahme Nachteile von • c2 Tests sind nicht sehr trennscharf und brauchen ein hohes N • Sie hängen von der Anzahl der Intervalle (Freiheitsgrade) ab • Sie können nur für die univariaten Verteilungen der einzelnen Meßvariablen durchgeführt werden (- Ausreisser durch spezielle Wertekombinationen in der multivariaten Verteilung können nicht aufgedeckt werden) c2 - Tests • Effektive Methoden: Methoden, die die Quantile der erwarteten und tatsächlichen Distanzen vom Zentroid verwenden, können univariat und multivariat verwendet werden • Effiziente Tests: Die Testung der Gleichheit von erwarteten und tatsächlichen Quantilen beruht auf einer trennscharfen Testung des Korrelationskoeffizienten (uni-und multivariat). Alternative: Q-Q Plot Methoden und Korrelations-Tests

  7. Test der NV-Annahme (univariat) Klassifikation Identifikation von Ausreißern Data Clearing • Ausreißer sind heikel zu bestimmen, bei kleinen Stichproben N < 30 gibt es keine zuverlässigen Methoden • Bei N > 30 legt man die Quantile der Normalverteilung zugrunde und eliminiert die Werte, die jenseits der äußeren Quantile liegen. Dies sollten nicht mehr als 7%-8% sein. Ausreißer:

  8. Test der NV-Annahme (univariat) Klassifikation Test über Quantilskorrelation Q-Q Plot Methode • Nach Ausreißerbereinigung werden den Meßwerten empirische Quantile qo (in z) zugeordnet über die sortierte Reihe der Meßwerte. • Mit aus den Daten geschätzten Parametern (m,s) werden für die Prozentränge erwartete Quantile qe (in z) bestimmt. • Man trägt qo (y-Achse) und qe (x-Achse) gegeneinander ab. Perfekte Passung liegt vor, wenn die Daten auf der Winkelhalbierenden liegen. • Man bestimmt Anteil der aufgeklärten Varianz und Korrelation. • Für den Korrelationskoeffizienten existieren kritische Werte, die beiUnterschreitung zur Ablehnung der NV-Annahme führen (s. Tabelle).

  9. Test der NV-Annahme (univariat) Klassifikation Kritische Q-Q- Korrelationen Q-Q Plot Methode Korrelations-Test Ist rqq < rcrit(a), wird die Annahme der NV auf dem gewählten a Level verworfen. a sollte progressiv gewählt sein (10%), da man eine Sicherheit für die Beibehaltung wünscht.

  10. Test der NV-Annahme (univariat) Klassifikation Datenbeispiel Q-Q Plot Methode mit 2 Ausreißern N = 30 Korrelations-Test NV Test knapp im Annahmebereich, aber 2 Ausreißer verschlechtern die Passung beträchtlich

  11. Test der NV-Annahme (univariat) Klassifikation Datenbeispiel Q-Q Plot Methode ohne Ausreißer N = 28 Korrelations-Test NV Test und Varianzaufklärung zeigt perfekte der empirischen Quantile an die NV an.

  12. Test der NV-Annahme (univariat) Klassifikation Datenbeispiel Q-Q Plot Methode Nichtlineare Abweichung N = 29 Korrelations-Test • NV Annahme ist heikel und sollte abgelehnt werden • Ausreißerentfernung würde Passung verbessern, aber die Art der Abweichung deutet auf eine systematische Transformation der Quantile

  13. Test der NV-Annahme (univariat) Klassifikation Quantils-Transformation zur NV • Unsystematische Ausreißer sollten entfernt werden. • Bei systematischen Quantilsabweichungen können die Rohdaten einerPotenztransformation unterzogen werden, um eine gute Approximation an die NV zu erreichen. • Parameterschätzung für (m,s) der NV sind über die transformierten Daten auszuführen. Box-Cox-Power- Transformation maximiert nach k Die Power-Transformation g(x) liefert mit dem Wert k aus der Maximierung von l(k) die beste Annäherung an die NV

  14. Test der NV-Annahme (univariat) Klassifikation Datenbeispiel nichtlineare Abweichung Q-Q Plot Methode Q-Q - Plot Maximierungsfunktion l(k) N = 29 k0 Potenztransformation der Originalskala: Optimale Potenz- Transformation Erneuter Q-Q Test

  15. Test der NV-Annahme (univariat) Klassifikation Datenbeispiel nichtlineare Abweichung Q-Q Plot Methode Q-Q – Plot original Q-Q – Plot nach Potenztransformation h2 = .986 r = .993 h2 = .877 r = .937 berechnen z- transformieren Q-Q plotten Optimale Potenz- Transformation Potenztransformation bringt fast perfekte Passung der NV

  16. Test der NV-Annahme (multivariat) Klassifikation Identifikation von Ausreißern Data Clearing p-dimensions • Auch im multivariaten Fall sind Ausreißer in kleinen Stichproben nicht zuverlässig bestimmbar, • Bei N > 30 legt man die Quantile der multivariaten Normalverteilung zugrunde (c2) und eliminiert die Beobachtungen, dessen quadrierte Mahalanobis-Distanzen jenseits der äußeren Quantile liegen. Dies sollten nicht mehr als 7%-8% sein. Ausreißer: [Excel-Beispiel q-q-Plot]

  17. Test der NV-Annahme (multivariat) Klassifikation Test über Quantilskorrelation Q-Q Plot Methode multivariat • Nach Ausreißerbereinigung werden den Meßvektoren empirische Quantile qo zugeordnet über die Reihe der Meßwerte sortiert nach Mahalanobisdistanz. • Mit aus den Daten geschätzten Parametern (m,S) werden für die linearen Prozentränge erwartete Quantile qe aus der c2- Verteilung bestimmt. • Man trägt qo (y-Achse) und qe (x-Achse) gegeneinander ab. Perfekte Passung liegt vor, wenn die Daten auf der Winkelhalbierenden liegen. • Man bestimmt Anteil der aufgeklärten Varianz und Korrelation. • Für den Test des Korrelationskoeffizienten verfährt man exakt wie im univariaten Fall.

  18. Test der NV-Annahme (multivariat) Klassifikation Datenbeispiel (p = 4 Variablen) Q-Q Plot Methode mit 3 Ausreißern N = 30 p = 4 Korrelations-Test • NV Test knapp im Annahmebereich, aber 2 Ausreißer verschlechtern die Passung beträchtlich, auch in den unteren Quantilen • Die beiden größten Ausreißer erfüllen das Kriterium, aber der 3. höchste Wert ist ebenfalls suspekt (hoher Intervallabstand)

  19. Test der NV-Annahme (multivariat) Klassifikation Datenbeispiel (p = 4 Variablen) Q-Q Plot Methode ohne 3 Ausreißer N = 27 p = 4 Korrelations-Test NV Test zeigt nach Entfernung der höchsten 3 Werte (nicht nur 2) nun eine gute Passung der multivariaten NV

  20. Test der NV-Annahme (multivariat) Klassifikation Allgemeines zur Verteilungskorrektur Ausreisser-Kontrolle • Ausreißerbereinigung sollte immer multivariat erfolgen, da ein Ausreisser in einer einzelnen Variable noch nicht einen Ausreißer im Variablenverbund definiert. • Das Entfernen extremer Beobachtungen ändert die Korrelationsmatrix, daher können iterative Bereinigungen nötig werden. Skalentransformationen Transformationen • Skalentransformationen können nur univariat erfolgen. (Keine Methode definiert eine Transformation für den Variablenverbund) • Es ist ratsam eine univariate Untersuchung systematischer Verteilungsabweichungen nach der multivariaten Ausreißerkontrolle durchzuführen, und die einzelnen Variablen mit geeigneten Potenz- transformationen zu korrigieren. • Sind die Randverteilungen (univariate) alle normal, so wird auch die multivariate Verteilung normalverteilt sein.

  21. x2 Zentroid x1 Ausreisser in 2D Klassifikation Ausreißer als Distanz vom Zentroid univariat & multiv. multivariat aber nicht univariat Ausreisser in 2D: einer univariat & multivariat und einer multivariat

  22. uni+multivariat multivariat multivariat Ausreisser in 2D Klassifikation Ausreisser in 4D: einer uni+multi und zwei multivariat Ausreißer als Distanz vom Zentroid

More Related