1 / 17

Vorlesung „Robuste Statistische Verfahren“ SoSe 2014

Vorlesung „Robuste Statistische Verfahren“ SoSe 2014. Einführung: Wozu Robuste Statistik?. Roland Fried. Überblick. 1) „Klassische“ Statistik 2) Datenbeispiele 3) Effekte von Ausreißern 4) Ausreißerentdeckung 5) Ausreißer generierende Modelle 6) Lineare Regression 7) Ausblick.

gaston
Download Presentation

Vorlesung „Robuste Statistische Verfahren“ SoSe 2014

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Vorlesung „Robuste Statistische Verfahren“SoSe 2014 Einführung: Wozu Robuste Statistik? Roland Fried

  2. Überblick 1) „Klassische“ Statistik 2) Datenbeispiele 3) Effekte von Ausreißern 4) Ausreißerentdeckung 5) Ausreißer generierende Modelle 6) Lineare Regression 7) Ausblick

  3. 1) „Klassische“ Statistik Für stetige Zufallsvariablen (ZV) meist: Normalverteilungsannahme Rechtfertigung: • Approximative Beschreibung für viele Datensätze • Zentraler Grenzwertsatz - Führt zu einfachen Methoden (Schätzer, Tests) • Exakte Verteilung von Schätzern / Teststatistiken • Hochentwickelte Optimalitätstheorie

  4. Histogramm Normal Q-Q Plot 135 200 130 125 150 Sample Quantiles Frequency 120 100 115 110 50 105 0 100 105 110 115 120 125 130 135 -3 -2 -1 0 1 2 3 Heart Rate TheoreticalQuantiles 2) Intensivmedizin: Herzfrequenzmessungen, n=1000 Schwere Ränder Ausreißer

  5. Normal Q-Q-Plot Sample quantiles Theoretical quantiles Finance: Zuwächse von Bayer-Aktienkursen, n=11927 Histogramm 3000 2500 2000 Frequency 1500 1000 500 0 -40 -20 0 20 40 Differences Ausreißer Schwere Ränder

  6. 3) Effekte von Ausreißern 19 Beobachtungen von N(3,1) 1 Ausreißer x=25 Konfidenzintervall mit Ausreißer Konfidenzintervall ohne Ausreißer 0.0 0.5 1.0 1.5 2.0 2.5 3.0 log(x ) Konfidenzintervall wird sehr breit

  7. Standard deviation / MAD 4 3 2 1 0 -20 -10 0 10 20 x Variable Ausreißergröße 19 Beobachtungen von N(3,1), 1 Ausreißer x Arithm. Mittel / Median 4.0 3.5 3.0 2.5 2.0 -20 -10 0 10 20 x

  8. Klassisch: „k Sigma-Regel“ Betrachtexi als Ausreißer, falls mit • und s selbst von Ausreißern beeinflusst. Beispiel: (n=50) s=1.181 Med=0.036 MAD=0.962 -3 -2 -1 0 1 2 3 4) Ausreißerentdeckung Probleme: - Für n groß erfüllen stets einige Beobachtungen diese Regel. - Für n<11 stets |ti|<3, die Regel greift also nicht. - Maskierungseffekte bei mehreren Ausreißern.

  9. 5) Ausreißermodelle: Mischverteilungen Histogramm Histogramm 300 300 Frequency Frequency 200 200 100 100 0 0 -10 -5 0 5 10 10 -10 -5 0 5 e=5% e=2.5% Histogramm 400 300 Frequency 200 100 0 -10 -5 0 5 10 e=0% Jeweils 2000 Datenpunkte

  10. Normal Q-Q Plot Normal Q-Q Plot 5 5 0 0 Sample Quantiles Sample Quantiles -5 -5 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 Theoretical Quantiles Theoretical Quantiles e=5% e=2.5% Mischverteilungen Normal Q-Q Plot 3 2 1 0 Sample Quantiles -1 -2 -3 -3 -2 -1 0 1 2 3 Theoretical Quantiles e=0% Jeweils 2000 Datenpunkte

  11. Effizienzen (Varianz) 100 100 80 80 60 60 efficiency efficiency 40 40 20 20 0 0 0 2.5 5 7.5 10 0 2.5 5 7.5 10 contamination e [%] contamination e [%] 10% getrimmtes Mittel Arithmetisches Mittel Median 20% getrimmtes Mittel Huber M-Schätzer, k=1.5

  12. 100 0.4 80 0.3 60 efficiency (MSE) 0.2 bias 40 0.1 20 0.0 0 0 5 10 15 20 0 5 10 15 20 outlier size c outlier size c Asymmetrische Kontamination 10% getrimmtes Mittel Arithmetisches Mittel Median 20% getrimmtes Mittel Huber M-Schätzer, k=1.5

  13. 6) Lineare Regression 4 6 4 2 2 y y 0 0 -2 -2 -4 -4 -15 -10 -5 0 5 10 15 -15 -10 -5 0 5 10 15 Zeit Zeit LS-Regressionsgerade S-Regressionsschätzer Repeated Median MM-Regressionsschätzer

  14. Summary MM-Schätzer • > summary(lmrob(y~x)) • Weighted Residuals: • Min 1Q Median 3Q Max • -1.9185 -0.7973 0.3571 0.9494 9.0162 • Coefficients: • Estimate Std. Error t value Pr(>|t|) • (Intercept) -0.24750 0.23024 -1.075 0.291 • x 0.18814 0.03035 6.199 9.25e-07 *** • Robust residual standard error: 1.471 • Convergence in 9 IRWLS iterations • Robustness weights: • 2 observations c(2,3) are outliers with |weight| < 3.226e-06; • one weight is ~= 1; the remaining 28 ones are summarized as • Min. 1st Qu. Median Mean 3rd Qu. Max. • 0.02972 0.92390 0.96510 0.91530 0.98940 0.99990 • Algorithmic parameters: • nResample max.it groups n.group best.r.s k.fast.s k.max • 500 50 5 400 2 1 200

  15. Modell: 7) Abgrenzung Klassische Statistik Nichtparametrische Statistik Robuste Statistik h(x) „glatt“ oder monoton oder … U symmetrisch zu 0 oder Median(U)=0

  16. Robuste Verfahren • Anwendungsszenarien:Univariate Lage und StreuungLineare RegressionMultivariate Lage, Streuung und Kovarianz … • Ansätze:M-Schätzer (Abstandsmaße)L-Schätzer (Ordnungsstatistiken)R-Schätzer (Rang-Tests)S-Schätzer (Skalen-basiert) … • Vergleichskriterien:Effizienz an der NormalverteilungInfluenzfunktion, Biaskurve, BruchpunktEinfachheit, Rechenaufwand

  17. John Tukey (1975)(einer der Väter der robusten Statistik, mit Peter Huber und Frank Hampel): „It is perfectly proper to use both classical and resistant methods routinely, and only worry when they differ enough to matter. But when they differ, you should think hard.“

More Related