1 / 21

Multivariate Analysemethoden

Multivariate Analysemethoden. Vorlesung. Multivariate Distanz – Multivariate Normalverteilung Minimum Distance Classifier – Bayes Classifier. Günter Meinhardt Johannes Gutenberg Universität Mainz. Klassifikation. Multivariate Klassifikation. Ziele.

zia
Download Presentation

Multivariate Analysemethoden

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Multivariate Analysemethoden Vorlesung Multivariate Distanz – Multivariate Normalverteilung Minimum Distance Classifier – Bayes Classifier Günter Meinhardt Johannes Gutenberg Universität Mainz

  2. Klassifikation Multivariate Klassifikation Ziele • Einordnen von Fällen (Versuchspersonen, Beobachtungen) in Gruppen aufgrund ihrer Werte in mehreren Meßvariablen. • Maßgeblich für die Zuordnung zu eine Gruppe ist a) dieWahrscheinlichkeit des Auftretens des Falles in der Ziel- gruppe (falls ermittelbar) oder b) die Distanz des Falles vom charakteristischen Wert der Gruppe (Prototyp, Zentroid) Methoden • Deskriptive Methoden: * Bestimmung von Distanzen und Wahrscheinlichkeiten auf dem Set der beobachteten Meßvariablen • Analytische Methoden: * Bestimmung von Distanzen und Wahrscheinlichkeiten auf trans- formierten Meßvariablen mit dem Ziel, die Separation von Gruppen zu maximieren (Diskriminanzanalytische Methoden) • Weitere Kriterien sind Kosten von Fehlklassifikationen und die a- priori Wahrscheinlichkeit von Gruppen (Allg. Likelihood-Ratio und Bayes-Klassifikation)

  3. Iso-Distanz Konturen in 2D Klassifikation Iso-Distanz-Konturen in 2D Kreis Kreis mit Radius c: Alle Punkte auf dem Kreisbogen haben euklidischen Abstand c zum Kreismittelpunkt c y x • Der Kreis ist die Grundform der Iso-Distanz Kontur im zweidimen- sionalen Raum (p = 2). • Er entspricht im Variablenraum einer Iso-Distanz-Kontur für 2 unkorrelierte (orthogonale) Variablen mit derselben Skalierung.

  4. Iso-Distanz Konturen in 2D Klassifikation Ellipse: Skalierung Ellipse mit Ellipsenradius c: Alle Punkte auf dem Ellipsenbogen haben, auf Standardskala normiert, denselben Abstand c zum Mittelpunkt y x v Standardskala: u

  5. Iso-Distanz Konturen in 2D Klassifikation Ellipse Translation Translation zum Punkt (x0,y0) ändert an dieser Eigenschaft nichts: v Standardskala: Standard- Transformation u

  6. Iso-Distanz Konturen in 2D Klassifikation Die Invarianz der Distanz im neuen Koordinatensystem mit geneigten Achsen (Korrelation der Variablen) ist über eine Rotation der Koordinaten (anticlock) erklärt: Standard-Ellipse Neigung Korrelation r Koordinaten Korrelierte Achsen Mit der Transformation v u erfüllen alle Ellipsenpunkte: [Tafel: cos a]

  7. polar kartesisch polar kartesisch Iso-Distanz Konturen in 2D Klassifikation Ellipsen sind in kartesischen Koordinaten unpraktisch zu zeichnen. Man geht über zur Darstellung in Polarkoordinaten. Standard-Ellipse: Zeichen-Routine polar kartesisch Es gelten die Transformationen: Zum Zeichnen muß die Ellipsengleichung als Gleichung in Polarkoordinaten (Vektorlänge in Abhängigkeit des Winkels a) umgeschrieben werden

  8. Iso-Distanz Konturen in 2D Von der Darstellung in Polarkoordinaten kann einfach in kartesische Koordinaten zurückgerechnet werden (Setzen der Ellipsenpunkte) Standard-Ellipse: Zeichen-Routine Setze damit Verfahren 1. Variiere a von –p bis p (= ein Kreisumlauf). 2. Für jeden Winkel a berechne q = tan-1(a). 3. Berechne dann 4. Berechne damit r. 5. Berechne dann x,y: [Excel-Sheet]

  9. f(z) f(z) 0.4 0.4 0.4 0.4 68.26% 95.5% 0.3 0.3 0.3 0.3 0.2 0.2 0.2 0.2 0.1 0.1 0.1 0.1 z z -3 -3 -2 -2 -1 -1 1 1 2 2 3 3 -3 -3 -2 -2 -1 -1 1 1 2 2 3 3 Multivariate Normalverteilung Klassifikation 1 D-Normal Verteilung Die Funktion hat Fläche Die auf die Fläche 1 normierte Funktion heißt Normalverteilung (Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Flächen- Anteile für z - Standardvariablen definierbar. (Standard-NV) [Kurzübung]

  10. Dann definiert mit die Inverse der Varianz- Kovarianz Matrix S. die verallgemeinerte quadrierte Distanz im multivariaten Raum. Sie heißt quadrierte Mahalanobis-Distanz. Mahalanobisdistanz Klassifikation p-variater Fall Man bemerke daß ist. Man habe nun nicht eine, sondern p Variablen: (jeder Messpunkt ist ein p- dimensionaler Vektor und der Zentroid ist ein p- dimensionaler Vektor) mit Zentroid Mahalanobis- Distanz [Excel-Beispiel 2D]

  11. Multivariate Normalverteilung Klassifikation p D-Normal Verteilung Die Funktion hat Volumen Die auf Volumen 1 normierte Funktion heißt multivariate Normalverteilung (multivariate Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Anteile des Gesamtvolumens eines p-dimensionalen Ellipsoids definiert. Die in ihrem Argument auftretende Mahalanobis-Distanz erfüllt die Bedingung: mit a einem zu setzenden alpha-Fehler Niveau. Alle Mahalanobisdistanzen D, die diese Bedingung erfüllen, erzeugen Konturen gleicher Wahrscheinlichkeit (iso-probability contours) mit P = 1-a in der multivariaten Normalverteilung.

  12. Multivariate Normalverteilung Klassifikation 2 D-Normal Verteilung Die multivariate Normalverteilung mit p = 2 Variablen (bivariate Normalverteilung) hat die Form Die im Argument auftretende Mahalanobis-Distanz definiert eine Ellipse im zweidimensionalen Raum für jede Konstante c: Diese ist eine Iso-Probability-Contour im obigen Sinne (s. multivariate NV, vorherige Folie) [Tafelbetrachtung]

  13. x2 x1 Multivariate Normalverteilung Klassifikation Bivariate Normalverteilung mit p = 2 Variablen und Korrelation r = 0.6 2 D-Normal Verteilung Density-Plot Contour-Plot x2 P=0.95 P=0.75 P=0.5 P=0.25 x1 Ellipsen gleicher Wahrscheinlichkeit und zugehöriges Distanzmaß (quadrierte Mahalanobis-Distanz) [Excel-Übung]

  14. und temporär Setze Iso-Distanz Konturen in 2D NV-2D-Ellipse: Zeichen-Routine (NV-Ellipse) 3. Berechne dann Und es gilt: a) a läuft von –p bis p (= ein Kreisumlauf) Verfahren b) c) [Excel-Sheet]

  15. Multivariate Normalverteilung Klassifikation p D-Normal Verteilung Die Ellipsen der Form sind zentriert in und haben Hauptachsen mit Eigenwertbedingung Eine Eigenwertzerlegung der Varianz-Kovarianz Matrix liefert somit die Hauptachsen des p- variaten Ellipsoids der multivariaten Normalverteilung Beispiel 2D Länge = Länge =

  16. Case is group Minimum Distance Classifier Klassifikation MDC Mit der Mahalanobisdistanz für eine Beobachtung zum Zentroid der Gruppe cj definiere die Regel: Gruppiere in Gruppe ci, wenn gilt MDC-Regel Die Performance des MDC läßt sich mit großen Stichproben für die k – Gruppen mit einer Konfusions-Matrix bewerten: allocated to group Häufigkeit zur Einordnung von Fall (Zeile) in Gruppe (Spalte)

  17. Minimum Distance Classifier Klassifikation Confusion-matrix Korrekte Klassifizierungen sind die Häufigkeiten auf der Diagonalen: Hits Mit den Zeilensummen und N der Summe aller Häufigkeiten gilt Erwartete Häufigkeiten bei Zufall (anteilige Gleichverteilung) (erwartete Zellhäufigkeit) mit pj der A-priori Wahrscheinlichkeit der Gruppe cj pj kann ggf. aus den empirischen Gruppenstärken über pj = hi/N geschätzt werden, wenn keine Information über die A-priori Wahrscheinlichkeiten vorliegt.

  18. Minimum Distance Classifier Klassifikation Erwartete Confusion-matrix Dann ist die erwartete Hit-Häufigkeit. Mit Hits ist ho normalverteilt über die Approximation der Binomialverteilung Erwartete Häufigkeiten bei Zufall (anteilige Gleichverteilung) wenn gilt. Dann testet der z- Test die Hitrate des MDC gegen den Zufall.

  19. Bayesian Classifier Klassifikation A-priori Wahr- scheinlichkeit der Gruppen Man habe Information über die A-priori Wahrscheinlichkeiten der Gruppen cj: Dann liefert eine Klassifikation der Beobachtung nach ihrer A-posteriori WK A-posteriori Wahrscheinlichkeit eine korrektere Zuordnung als nur nach der kürzesten Distanz zum Gruppenzentroid. Regel: Max-Aposteriori WKn Classifier Gruppiere in Gruppe ci, wenn gilt Normalverteil-ungsannahme Um die A-posteriori WKn zu berechnen, muss für die Likelihood- Funktionen die Annahme der multivariaten Normalverteilung gelten.

  20. c2 c3 c1 c4 Bayesian Classifier Klassifikation Likelihoods Mit der multivariaten Normalverteilung haben die Likelihoods die Form A-posteriori WK mit der quadrierten Mahalanobisdistanz zum Gruppenzentroid Klassifikations- Raum Der Klassifikationsraum ist durch alle Gruppen vollständig partitioniert. Es gilt: Und wegen der Disjunktheit: Normalverteil-ungsannahme

  21. Bayesian Classifier Klassifikation Likelihoods Da (Def. der bedingten Wahrscheinlichkeit), folgt Satz der totalen WK Und damit Satz von Bayes der Satz von Bayes für die A-posteriori WK der Gruppe ci, gegeben die multivariate Beobachtung Normalverteil-ungsannahme Die approximative Gültigkkeit der multivariaten NV kann durch Q-Q-Plot Methoden überprüft werden.

More Related