Multivariate Analysemethoden

Multivariate Analysemethoden Vorlesung Multivariate Distanz – Multivariate Normalverteilung Günter Meinhardt Johannes Gutenberg Universität Mainz

Iso-Distanz Konturen in 2D Iso-Distanz-Konturen in 2D Kreis Kreis mit Radius c: Alle Punkte auf dem Kreisbogen haben euklidischen Abstand c zum Kreismittelpunkt c y x • Der Kreis ist die Grundform der Iso-Distanz Kontur im zweidimensionalen Raum (p = 2). • Er entspricht im Variablenraum einer Iso-Distanz-Kontur für 2 unkorrelierte (orthogonale) Variablen mit derselben Skalierung.

Iso-Distanz Konturen in 2D Ellipse: Skalierung Ellipse mit Ellipsenradius c: Alle Punkte auf dem Ellipsenbogen haben, auf Standardskala normiert, denselben Abstand c zum Mittelpunkt y x v Standardskala: u

Iso-Distanz Konturen in 2D Ellipse Translation Translation zum Punkt (x0,y0) ändert an dieser Eigenschaft nichts: v Standardskala: Standard- Transformation u

Iso-Distanz Konturen in 2D Die Invarianz der Distanz im neuen Koordinatensystem mit geneigten Achsen (Korrelation der Variablen) ist über eine Rotation der Koordinaten (anticlock) erklärt: Standard-Ellipse Neigung Korrelation r Koordinaten Korrelierte Achsen Mit der Transformation v u erfüllen alle Ellipsenpunkte: [Tafel: cos a]

polar kartesisch polar kartesisch Iso-Distanz Konturen in 2D Ellipsen sind in kartesischen Koordinaten unpraktisch zu zeichnen. Man geht über zur Darstellung in Polarkoordinaten. Standard-Ellipse: Zeichen-Routine polar kartesisch Es gelten die Transformationen: Zum Zeichnen muß die Ellipsengleichung als Gleichung in Polarkoordinaten (Vektorlänge in Abhängigkeit des Winkels a) umgeschrieben werden

Iso-Distanz Konturen in 2D Von der Darstellung in Polarkoordinaten kann einfach in kartesische Koordinaten zurückgerechnet werden (Setzen der Ellipsenpunkte) Standard-Ellipse: Zeichen-Routine Setze damit Verfahren 1. Variiere a von –p bis p (= ein Kreisumlauf). 2. Für jeden Winkel a berechne q = tan-1(a). 3. Berechne dann 4. Berechne damit r. 5. Berechne dann x,y: [Excel-Sheet]

f(z) f(z) 0.4 0.4 0.4 0.4 68.26% 95.5% 0.3 0.3 0.3 0.3 0.2 0.2 0.2 0.2 0.1 0.1 0.1 0.1 z z -3 -3 -2 -2 -1 -1 1 1 2 2 3 3 -3 -3 -2 -2 -1 -1 1 1 2 2 3 3 Multivariate Normalverteilung 1 D-Normal Verteilung Die Funktion hat Fläche Die auf die Fläche 1 normierte Funktion heißt Normalverteilung (Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Flächen- Anteile für z - Standardvariablen definierbar. (Standard-NV) [Kurzübung]

Dann definiert mit die Inverse der Varianz- Kovarianz Matrix S. die verallgemeinerte quadrierte Distanz im multivariaten Raum. Sie heißt quadrierte Mahalanobis-Distanz. Mahalanobisdistanz p-variater Fall Man bemerke daß ist. Man habe nun nicht eine, sondern p Variablen: (jeder Messpunkt ist ein p- dimensionaler Vektor und der Zentroid ist ein p- dimensionaler Vektor) mit Zentroid Mahalanobis- Distanz [Excel-Beispiel 2D]

Multivariate Normalverteilung p D-Normal Verteilung Die Funktion hat Volumen Die auf Volumen 1 normierte Funktion heißt multivariate Normalverteilung (multivariate Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Anteile des Gesamtvolumens eines p-dimensionalen Ellipsoids definiert. Die in ihrem Argument auftretende Mahalanobis-Distanz erfüllt die Bedingung: mit a einem zu setzenden alpha-Fehler Niveau. Alle Mahalanobisdistanzen D, die diese Bedingung erfüllen, erzeugen Konturen gleicher Wahrscheinlichkeit (iso-probability contours) mit P = 1-a in der multivariaten Normalverteilung.

Multivariate Normalverteilung 2 D-Normal Verteilung Die multivariate Normalverteilung mit p = 2 Variablen (bivariate Normalverteilung) hat die Form Die im Argument auftretende Mahalanobis-Distanz definiert eine Ellipse im zweidimensionalen Raum für jede Konstante c: Diese ist eine Iso-Probability-Contour im obigen Sinne (s. multivariate NV, vorherige Folie) [Tafelbetrachtung]

x2 x1 Multivariate Normalverteilung Bivariate Normalverteilung mit p = 2 Variablen und Korrelation r = 0.6 2 D-Normal Verteilung Density-Plot Contour-Plot x2 P=0.95 P=0.75 P=0.5 P=0.25 x1 Ellipsen gleicher Wahrscheinlichkeit und zugehöriges Distanzmaß (quadrierte Mahalanobis-Distanz) [Excel-Übung]

und temporär Setze Iso-Distanz Konturen in 2D NV-2D-Ellipse: Zeichen-Routine (NV-Ellipse) 3. Berechne dann Und es gilt: a) a läuft von –p bis p (= ein Kreisumlauf) Verfahren b) c) [Excel-Sheet]

Multivariate Normalverteilung p D-Normal Verteilung Die Ellipsen der Form sind zentriert in und haben Hauptachsen mit Eigenwertbedingung Eine Eigenwertzerlegung der Varianz-Kovarianz Matrix liefert somit die Hauptachsen des p- variaten Ellipsoids der multivariaten Normalverteilung Beispiel 2D Länge = Länge =

Multivariate Analysemethoden