170 likes | 331 Views
Vorlesung „Robuste Statistische Verfahren“ SoSe 2014. Einführung: Wozu Robuste Statistik?. Roland Fried. Überblick. 1) „Klassische“ Statistik 2) Datenbeispiele 3) Effekte von Ausreißern 4) Ausreißerentdeckung 5) Ausreißer generierende Modelle 6) Lineare Regression 7) Ausblick.
E N D
Vorlesung „Robuste Statistische Verfahren“SoSe 2014 Einführung: Wozu Robuste Statistik? Roland Fried
Überblick 1) „Klassische“ Statistik 2) Datenbeispiele 3) Effekte von Ausreißern 4) Ausreißerentdeckung 5) Ausreißer generierende Modelle 6) Lineare Regression 7) Ausblick
1) „Klassische“ Statistik Für stetige Zufallsvariablen (ZV) meist: Normalverteilungsannahme Rechtfertigung: • Approximative Beschreibung für viele Datensätze • Zentraler Grenzwertsatz - Führt zu einfachen Methoden (Schätzer, Tests) • Exakte Verteilung von Schätzern / Teststatistiken • Hochentwickelte Optimalitätstheorie
Histogramm Normal Q-Q Plot 135 200 130 125 150 Sample Quantiles Frequency 120 100 115 110 50 105 0 100 105 110 115 120 125 130 135 -3 -2 -1 0 1 2 3 Heart Rate TheoreticalQuantiles 2) Intensivmedizin: Herzfrequenzmessungen, n=1000 Schwere Ränder Ausreißer
Normal Q-Q-Plot Sample quantiles Theoretical quantiles Finance: Zuwächse von Bayer-Aktienkursen, n=11927 Histogramm 3000 2500 2000 Frequency 1500 1000 500 0 -40 -20 0 20 40 Differences Ausreißer Schwere Ränder
3) Effekte von Ausreißern 19 Beobachtungen von N(3,1) 1 Ausreißer x=25 Konfidenzintervall mit Ausreißer Konfidenzintervall ohne Ausreißer 0.0 0.5 1.0 1.5 2.0 2.5 3.0 log(x ) Konfidenzintervall wird sehr breit
Standard deviation / MAD 4 3 2 1 0 -20 -10 0 10 20 x Variable Ausreißergröße 19 Beobachtungen von N(3,1), 1 Ausreißer x Arithm. Mittel / Median 4.0 3.5 3.0 2.5 2.0 -20 -10 0 10 20 x
Klassisch: „k Sigma-Regel“ Betrachtexi als Ausreißer, falls mit • und s selbst von Ausreißern beeinflusst. Beispiel: (n=50) s=1.181 Med=0.036 MAD=0.962 -3 -2 -1 0 1 2 3 4) Ausreißerentdeckung Probleme: - Für n groß erfüllen stets einige Beobachtungen diese Regel. - Für n<11 stets |ti|<3, die Regel greift also nicht. - Maskierungseffekte bei mehreren Ausreißern.
5) Ausreißermodelle: Mischverteilungen Histogramm Histogramm 300 300 Frequency Frequency 200 200 100 100 0 0 -10 -5 0 5 10 10 -10 -5 0 5 e=5% e=2.5% Histogramm 400 300 Frequency 200 100 0 -10 -5 0 5 10 e=0% Jeweils 2000 Datenpunkte
Normal Q-Q Plot Normal Q-Q Plot 5 5 0 0 Sample Quantiles Sample Quantiles -5 -5 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 Theoretical Quantiles Theoretical Quantiles e=5% e=2.5% Mischverteilungen Normal Q-Q Plot 3 2 1 0 Sample Quantiles -1 -2 -3 -3 -2 -1 0 1 2 3 Theoretical Quantiles e=0% Jeweils 2000 Datenpunkte
Effizienzen (Varianz) 100 100 80 80 60 60 efficiency efficiency 40 40 20 20 0 0 0 2.5 5 7.5 10 0 2.5 5 7.5 10 contamination e [%] contamination e [%] 10% getrimmtes Mittel Arithmetisches Mittel Median 20% getrimmtes Mittel Huber M-Schätzer, k=1.5
100 0.4 80 0.3 60 efficiency (MSE) 0.2 bias 40 0.1 20 0.0 0 0 5 10 15 20 0 5 10 15 20 outlier size c outlier size c Asymmetrische Kontamination 10% getrimmtes Mittel Arithmetisches Mittel Median 20% getrimmtes Mittel Huber M-Schätzer, k=1.5
6) Lineare Regression 4 6 4 2 2 y y 0 0 -2 -2 -4 -4 -15 -10 -5 0 5 10 15 -15 -10 -5 0 5 10 15 Zeit Zeit LS-Regressionsgerade S-Regressionsschätzer Repeated Median MM-Regressionsschätzer
Summary MM-Schätzer • > summary(lmrob(y~x)) • Weighted Residuals: • Min 1Q Median 3Q Max • -1.9185 -0.7973 0.3571 0.9494 9.0162 • Coefficients: • Estimate Std. Error t value Pr(>|t|) • (Intercept) -0.24750 0.23024 -1.075 0.291 • x 0.18814 0.03035 6.199 9.25e-07 *** • Robust residual standard error: 1.471 • Convergence in 9 IRWLS iterations • Robustness weights: • 2 observations c(2,3) are outliers with |weight| < 3.226e-06; • one weight is ~= 1; the remaining 28 ones are summarized as • Min. 1st Qu. Median Mean 3rd Qu. Max. • 0.02972 0.92390 0.96510 0.91530 0.98940 0.99990 • Algorithmic parameters: • nResample max.it groups n.group best.r.s k.fast.s k.max • 500 50 5 400 2 1 200
Modell: 7) Abgrenzung Klassische Statistik Nichtparametrische Statistik Robuste Statistik h(x) „glatt“ oder monoton oder … U symmetrisch zu 0 oder Median(U)=0
Robuste Verfahren • Anwendungsszenarien:Univariate Lage und StreuungLineare RegressionMultivariate Lage, Streuung und Kovarianz … • Ansätze:M-Schätzer (Abstandsmaße)L-Schätzer (Ordnungsstatistiken)R-Schätzer (Rang-Tests)S-Schätzer (Skalen-basiert) … • Vergleichskriterien:Effizienz an der NormalverteilungInfluenzfunktion, Biaskurve, BruchpunktEinfachheit, Rechenaufwand
John Tukey (1975)(einer der Väter der robusten Statistik, mit Peter Huber und Frank Hampel): „It is perfectly proper to use both classical and resistant methods routinely, and only worry when they differ enough to matter. But when they differ, you should think hard.“