1 / 36

Dzisiaj na wykładzie

Dzisiaj na wykładzie. Regresja wieloraka – podstawy i założenia Przykładowe oblicznia w SASie Weryfikacja założeń w SASie Zadanie. Regresja wieloraka. Bada związki między zmienną objaśnianą (zależną) i zmiennymi objaśniającymi (niezależnymi).

rossa
Download Presentation

Dzisiaj na wykładzie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Dzisiaj na wykładzie • Regresja wieloraka – podstawy i założenia • Przykładowe oblicznia w SASie • Weryfikacja założeń w SASie • Zadanie

  2. Regresja wieloraka Bada związki między zmienną objaśnianą (zależną) i zmiennymi objaśniającymi (niezależnymi)

  3. Jak przewidzieć odsetek upadków zwierząt przy transporcie? Jakie zmienne związane są z upadkami zwierząt? Co decyduje o upadkach zwierząt? Które z nich są najważniejsze i w jakim stopniu są powiązane ze stratami zwierząt? Typowe zadanie

  4. regresja pierwszego rzędu y = a + b1x1 + b2x2 + b3x3 + ... + e drugiego rzędu y = a + b1x1 + b2x2x2 + ... y = a + b1x1 + b2x2 +b3x2x3 + Dlaczego te regresje są liniowe?

  5. y = a + b1x1 + b2x2 + b3x3 + ... + e a to wyraz wolny. Średnia? b1, b2, b3 – cząstkowe współczynniki regresji to niezależne wkłady każdej ze zmiennych objaśniających

  6. Współczynniki cząstkowe obrazują zależności po uwzględnieniu pozostałych czynników. Jak je oszacować?

  7. Jak wyznaczyć prostą regresji • metoda najmniejszych kwadratów • metoda najmniejszych kwadratów ważonych • metoda najmniejszych reszt bezwględnych

  8. Metoda najmniejszych kwadratów

  9. R-kwadrat czyli współczynnik determinacji • Mówi o jakości przewidywania • R2=30% znaczy 30% wariancji opisane przez zmienne opisujące i 70% wciąż nie opisane (błędy)

  10. R-kwadrat R-kwadrat = 1 - SSE / SST • SSE - suma kwadratów reszt • SST - suma kwadratów obserwacji

  11. R-kwadrat skorygowane R-kwadrat zależy od liczby zmiennych objaśniających! Im więcej zmiennych tym większy. • R-kwadrat skorygowane NIE zależy od liczby zmiennych objaśniających • Porównując dwa modele o różnej liczbie zmiennych patrz na R-kwadrat skorygowane

  12. R czyli korelacja • R to pierwiastek z R-kwadrat. Tylko dodatni ( 0 - 1 ) !!! • wskazuje na stopień powiązania zmiennych

  13. Zależność między zmiennymi jest liniowa • Trudne do sprawdzenia • Małe odstępstwa niegroźne • Liniowość oceniamy na oko – wykresy rozrzutu • Co jeżeli zależność nie jest liniowa? • transformacja danych • regresja nieliniowa

  14. Regresja mówi o współwystępowaniu zjawisk, a nie o przyczynach i skutkach! Regresja liczby kradzieży na liczbę policjantów jest dodatnia!

  15. Zwodnicza regresja Jeżeli w modelu umieścisz dużą liczbę zmiennych objaśniających część z nich na pewno będzie istotna. Im więcej danych tym mniej złudne są wyniki. Ile?

  16. Reszty mają rozkład normalny • Ważne przy testowaniu, nie przy szacowaniu • Stosujemy histogramy reszt i wykresy normalności reszt • Niewielkie odchylenia nie są groźne • Dobry model daje duży R-kwadrat i normalność reszt. Czy taki potrafimy znaleźć?

  17. Nadmiarowość danych • % upadków przy transporcie tak samo dobrze opisuje liczba przejechanych kilometrów jak i dystans do ubojni (to to samo) • Należy uważać, żeby zmienne objaśniające nie były zbytnio skorelowane

  18. Odstające obserwacje Znacznie przekłamują oszacowania. Najczęściej to błędy powstałe przy wpisywaniu danych. Najlepiej usunąć je przed analizą regresji.

  19. Przykładowe dane • Rasa • Zawartość mięsa w tuszy • Wiek w dniu uboju • Masa półtuszy • Średnia grubość słoniny wbp 58.7 200 38.9 1.18 wbp 57.7 171 41.2 1.22 wbp 60.4 185 38.4 1.14 wbp 51.9 177 40.8 2.44 wbp 61.7 169 38.8 1.52 wbp 62.4 169 39.6 1.18 wbp 60.9 169 40.2 1.48 ...... ......

  20. Wyznaczamy model do przewidywania zawartości mięsa w tuszy na podstawie wieku data swinie ; infile "dane.txt" ; input rasa $ zmwt wiekub mtuszy grsloniny ; proc reg model zwmt = wiekub ; plot upadki*dystans ; run ;

  21. Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 47.58626 47.58626 5.91 0.0160 Error 190 1530.37291 8.05459 Corrected Total 191 1577.95917 Root MSE 2.83806 R-Square 0.0302 Dependent Mean 59.40208 Adj R-Sq 0.0251 Coeff Var 4.77771 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 65.41199 2.48104 26.36 <.0001 wiekub 1 -0.03121 0.01284 -2.43 0.0160

  22. Wybór modeluKtóry model jest najlepszy? • Ten z max. R-kwadrat? Ale uwaga! -im szerszy model tym większy wsp. determ. • CP = (SSE/war.błędu) + 2*l.parametrów - liczba obserwacji

  23. Jak wyznaczyć najlepszy model? • Najlepiej rozpatrywać każdy model z osobna (za dużo kombinacji). • Jeżeli więcej zmiennych kandydujących to korzystamy z regresji krokowej • wstecznej • postępującej • i innych

  24. Wybór modelu • FORWARD - dokładanie po jednej zmiennej • BACKWARD - ujmowanie po jednej zmiennej • STEPWISE – jak FORWARD ale zmienna raz dodana nie musi pozostać w modelu • MAXR – wybór najlepszego modelu dla jednej zmiennej, najlepszego dla dwóch zmiennych, itd.. • CP - szuka podanej liczby modeli o najmniejszej wartosci Cp i zadanym rozmiarze modelu

  25. R. krokowa postępująca • Najprostszy model – tylko wyraz wolny • Testujemy każdy z osobna, i dodajemy do modelu zmienną, której F>Fwprow. • Kontynuujemy - wprowadzamy następne zmienne i usuwamy te, dla których F<Fusun.

  26. Wybór modelu proc reg model zwmt = wiekub mtuszy grsloniny / selection=stepwise ; run ;

  27. Stepwise Selection: Step 3 Variable wiekub Entered: R-Square = 0.3802 and C(p) = 4.0000 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 3 599.86830 199.95610 38.43 <.0001 Error 188 978.09086 5.20261 Corrected Total 191 1577.95917 Parameter Standard Variable Estimate Error Type II SS F Value Pr > F Intercept 100.83899 6.26631 1347.26952 258.96 <.0001 wiekub -0.03992 0.01038 76.98254 14.80 0.0002 mtuszy -0.66982 0.15427 98.07421 18.85 <.0001 grsloniny -4.72688 0.60845 313.99019 60.35 <.0001 zwmt = 100.8 - 0.04*wiekub - 0.67*mtuszy - 4.73*grsloniny

  28. Po dopasowaniu modelu zawsze analizujemy reszty. Powtarzamy analizę jeżeli mamy duże wartości odstające!

  29. proc reg ; model zmwt = wiekub mtuszy grsloniny / p r cli clm ; run; P – drukuje numer obserwacji, wartość obserwowaną , predykowaną i reszte R – drukuje więcej szczegółow o resztach CLM – 95% przedizał ufności dla predykowanych wartości Dependent Predicted Std Error Std Error Student Obs Variable Value Mean Predict 95% CL Mean 95% CL Predict Residual Residual Residual -2 -1 0 1 2 1 58.7000 61.2208 0.2699 60.6885 61.7532 56.6899 65.7517 -2.5208 2.265 -1.113 | **| | 2 57.7000 60.6489 0.4211 59.8182 61.4796 56.0734 65.2244 -2.9489 2.242 -1.315 | **| | 3 60.4000 62.3436 0.3247 61.7032 62.9841 57.7988 66.8885 -1.9436 2.258 -0.861 | *| | 4 51.9000 54.9105 0.5844 53.7576 56.0634 50.2657 59.5553 -3.0105 2.205 -1.365 | **| | 5 61.7000 60.9182 0.3347 60.2580 61.5785 56.3706 65.4659 0.7818 2.256 0.346 | | | 6 62.4000 61.9895 0.3602 61.2790 62.7001 57.4343 66.5448 0.4105 2.252 0.182 | | | 7 60.9000 60.1696 0.3018 59.5742 60.7650 55.6309 64.7083 0.7304 2.261 0.323 | | | 8 55.5000 60.4452 0.2379 59.9758 60.9146 55.9213 64.9691 -4.9452 2.268 -2.180 | ****| | 9 59.4000 58.2251 0.2220 57.7872 58.6631 53.7044 62.7459 1.1749 2.270 0.518 | |* | 10 59.0000 56.9470 0.3760 56.2053 57.6887 52.3868 61.5072 2.0530 2.250 0.913 | |* | 11 60.8000 60.1635 0.1822 59.8040 60.5230 55.6497 64.6774 0.6365 2.274 0.280 | | |

  30. Reszty studentyzowane - reszty podzielone przez odchylenie standardowe reszt – duża liczba obserwacji z wartościami bezwzględnymi >2 wskazuje na nieadekwatność modelu. Wartosci D Cooka – odzwierciedlają zmianę w oszacowaniu, gdyby obserwacje usunięto z analizy. Duża wartość (>1) wskazuje, że obserwacja silnie wpływa na oszacowania w modelu – możliwe że jest to obserwacja odstająca!

  31. Wpływowe obserwacje Obserwacje, które mają największy wpływ na oszacowania parametrów w modelu. proc reg ; model zmwt = wiekub mtuszy grsloniny / influential ; run;

  32. RSTUDENT – reszta studentyzowana, uwaga na wartości >2 • DFFITS- podobne do wartości D Cooka,, uwaga na te, które > 2 • DFBETAS – uwaga na wartości >2

  33. Problem na ćwiczenia udział tłuszczu w ciele • Ważny dla zdrowia • Trudny w pomiarze - wymaga ważenia ciała w wodzie. • Czy można go przewidzieć na podstawie łatwych pomiarów.

  34. Density determined from underwater weighing Percent body fat from Siri's (1956) equation Age (years) Weight (lbs) Height (inches) Neck circumference (cm) Chest circumference (cm) Abdomen 2 circumference (cm) Hip circumference (cm) Thigh circumference (cm) Knee circumference (cm) Ankle circumference (cm) Biceps (extended) circumference (cm) Forearm circumference (cm) Wrist circumference (cm) dane BODYFAT http://lib.stat.cmu.edu/datasets/

  35. Zadania na ćwiczenia • Skonstruuj dobry model predykcji udziału tłuszczu w ciele • Które zmienne są najlepiej objaśniają udział tłuszczu w ciele człowieka? • Dokonaj analizy reszt. Usuń przypadki zniekształcające przewidywanie i popraw model.

  36. zadanie dla chętnychZbrodnie Detroit http://lib.stat.cmu.edu/datasets/detroit The data are on the homicide rate in Detroit for the years 1961-1973. FTP - Full-time police per 100,000 population UEMP - % unemployed in the population MAN - number of manufacturing workers in thousands LIC - Number of handgun licences per 100,000 population GR - Number of handgun registrations per 100,000 population CLEAR - % homicides cleared by arrests WM - Number of white males in the population NMAN - Number of non-manufacturing workers in thousands GOV - Number of government workers in thousands HE - Average hourly earnings WE - Average weekly earnings HOM - Number of homicides per 100,000 of population ACC - Death rate in accidents per 100,000 population ASR - Number of assaults per 100,000 population skonstruuj model predykcji liczby zabójstw

More Related