1 / 56

Wykład 14 Diagnostyka

Wykład 14 Diagnostyka. Diagnostyka – ocena prawidłowości założeń Środki zaradcze – odpowiednie dostosowanie metod analizy. Ocena danych. Zanim opiszemy związek między zmienną odpowiedzi (Y) a zmienną wyjaśniającą (X) powinniśmy przyjrzeć się rozkładowi tych zmiennych

lance
Download Presentation

Wykład 14 Diagnostyka

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Wykład 14 Diagnostyka • Diagnostyka – ocena prawidłowości założeń • Środki zaradcze – odpowiednie dostosowanie metod analizy

  2. Ocena danych • Zanim opiszemy związek między zmienną odpowiedzi (Y) a zmienną wyjaśniającą (X) powinniśmy przyjrzeć się rozkładowi tych zmiennych • Zawsze powinniśmy ocenić rozrzut X • Jeżeli Y zależy od X to rozkład brzegowy Y nie dostarcza nam dużo informacji

  3. Diagnostyka dla zmiennej X • Przyglądamy się rozkładowi X • Czy jest skośny ? • Czy są obserwacje odstające ? • Czy wartości X zależą od czasu (kolejności w jakiej dane były zbierane)?

  4. data a1; infile ‘h:/STAT512/ch01ta01.txt'; input lotsize workhrs; seq=_n_; proc print data=a1; run;

  5. Obs lotsize workhrs seq 1 80 399 1 2 30 121 2 3 50 221 3 4 90 376 4 5 70 361 5

  6. proc univariate data=a1 plot; var lotsize workhours; run;

  7. Variable: lotsize N 25 Mean 70 Std Deviation 28.7228132 Skewness -0.1032081 Uncorrected SS 142300 Coeff Variation 41.0325903

  8. Variable: lotsize Sum Weights 25 Sum Observations 1750 Variance 825 Kurtosis -1.0794107 Corrected SS 19800 Std Error Mean 5.74456265

  9. Basic Statistical Measures Location Mean 70.00000 Median 70.00000 Mode 90.00000

  10. Basic Statistical Measures Variability Std Deviation 28.72281 Variance 825.00000 Range 100.00000 Interquartile Range 40.00000

  11. Extreme Observations ----Lowest---- ----Highest--- Value Obs Value Obs 20 14 100 9 30 21 100 16 30 17 110 15 30 2 110 20 40 23 120 7

  12. Stem Leaf # Boxplot 12 0 1 | 11 00 2 | 10 00 2 | 9 0000 4 +-----+ 8 000 3 | | 7 000 3 *--+--* 6 0 1 | | 5 000 3 +-----+ 4 00 2 | 3 000 3 | 2 0 1 | ----+----+----+----+ Multiply Stem.Leaf by 10**+1

  13. symbol1 v=circle i=sm70; proc gplot data=a1; plot lotsize*seq; run;

  14. Rozkład normalny • Nasz model nie zakłada, że X lub Y pochodzą z jednorodnych populacji o rozkładach normalnych (zakładamy jedynie normalność zakłóceń losowych). • Czasem jednak X lub Y mają w przybliżeniu rozkłady normalne i warto to wiedzieć

  15. Wykres kwantylowy (q-q plot) • Znormi = -1((i-.375)/(n+.25)), i=1 to n • Przybliżenie wartości oczekiwanej i-tej statystyki porządkowej w próbie pochodzącej ze standardowego rozkładu normalnego • Rysujemy wykres X(i)vs Znormi

  16. Wykres kwantylowy(2) • Zmienną X standaryzujemy zgodnie ze wzorem z = (X - μ)/σ • Więc, X = μ + σ z • Jeżeli dane mają w przybliżeniu rozkład normalny to punkty na wykresie kwantylowym układają się wokół prostej, o nachyleniu bliskim σi punkcie przecięcia z osią Y bliskimμ.

  17. proc univariate data=a1 plot; var lotsize workhrs; qqplot lotsize workhrs ; run;

  18. Diagnostyka dla reszt • Model: Yi = β0 + β1Xi+ ξi • Wartości przewidywane: Ŷi = b0 + b1Xi • Reszty: ei = Yi – Ŷi • ei powinno być bliskieξi • Model zakłada, że ξisą iid N(0, σ2)

  19. WYKRES Wykres Wykres Wykres Wykres

  20. Pytania na które szukamy odpowiedzi • Czy zależność jest liniowa ? • Czy wariancja Y zależy od X? • Czy są obserwacje odstające ? • Czy reszty zależą od kolejności w zbiorze danych (_n_) • Czy zakłócenia mają rozkład normalny ? • Czy zakłócenia są niezależne ?

  21. Czy zależność jest liniowa ? • Rysujemy Y vs X • Rysujemy e vs X • Wykres e vs X podkreśla odstępstwa od liniowości

  22. Data a100; do x=1 to 30; y=x*x-10*x+30+25*normal(0); output; end; run;

  23. proc reg data=a100; model y=x; output out=a2 r=resid; run;

  24. Sum of Mean Source DF Squares Square Model 1 1032098 1032098 Error 28 169048 6037 C Tot 29 1201145 F Value Pr > F 170.95 <.0001

  25. symbol1 v=circle i=rl; proc gplot data=a2; plot y*x; run; symbol1 v=circle i=sm60; proc gplot data=a2; plot y*x; proc gplot data=a2; plot resid*x/vref=0; run;

  26. Czy wariancja zależy od X? • Rysujemy Y vs X • Rysujemy e vs X • Wykres e vs X podkreśla odstępstwa od założenia o równej wariancji

  27. Dataa100a; do x=1 to 100; y=100*x+30+10*x*normal(0); output; end; run;

  28. proc reg data=a100a; model y=x; output out=a2 r=resid; run;

  29. symbol1 v=circle i=sm60; proc gplot data=a2; plot y*x; proc gplot data=a2; plot resid*x vref=0; run;

  30. Czy zakłócenia pochodzą z rozkładu normalnego ? • Naprawdę chodzi nam o to aby sprawdzić czy rozkład reszt na tyle różni się od normalnego, że przedziały ufności i testy istotności tracą swoje własności. • Oceniamy rozkład reszt za pomocą wykresu kwantylowego

  31. data a1; infile ‘../data/ch01ta01.dat'; input lotsize workhrs; proc reg data=a1; model workhrs=lotsize; output out=a2 r=resid; proc univariate data=a2 plot normal; var resid; histogram resid/ normal kernel (color=green); qqplot resid; run;

  32. Zależność błędów • Zwykle odstępstwa od tego założenia można zaobserwować rysując reszty w funkcji czasu • Mogą pojawić się trendy lub zakłócenia okresowe

  33. Czy są obserwacje odstające ? • Wykres Y vs X • Wykres e vs X • Wykres e vs X powinien ułatwić identyfikację obserwacji odstającej

  34. Data a100b1; do x=1 to 100 by 5; y=30+50*x+200*normal(0); output; end; x=50; y=30+50*50 +10000; d='out'; output; run;

  35. proc reg data=a100b1; model y=x; where d ne 'out'; run; proc reg data=a100b1; model y=x; output out=a2 r=resid; run;

  36. Par St Var Est Error t Pr>|t| Int -2.54 95.29 x 50.51 1.68 29.91 <.0001 Int 432.20 979.57 x 51.37 17.45 2.94 .0083

  37. Root MSE 217.77514 Root MSE 2250.22683

  38. symbol1 v=circle i=rl; proc gplot data=a2; plot y*x; proc gplot data=a2; plot resid*x/ vref=0; run;

  39. Różne rodzaje obserwacji odstających • Obserwacja odstająca w poprzednim przykładzie wpłynęła na estymator punktu przecięcia z osią Y • Ale nie na estymator nachylenia • Zwiększyła estymator odchylenia standardowego • W kolejnym przykładzie zademonstrujemy jak obserwacja odstająca może wpływać na estymator nachylenia

More Related