1 / 40

Wykład 13

Wykład 13. Estymacja wartości oczekiwanej zmiennej zależnej. ``Pasmo’’ ufności dla prostej regresji Przedziały predykcyjne Analiza wariancji. Estymacja E(Y h ). E(Y h ) = μ h = β 0 + β 1 X h , wartość oczekiwana Y gdy X=X h estymujemy E(Y h ) za pomocą = b 0 + b 1 X h.

tiara
Download Presentation

Wykład 13

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Wykład 13 • Estymacja wartości oczekiwanej zmiennej zależnej. • ``Pasmo’’ ufności dla prostej regresji • Przedziały predykcyjne • Analiza wariancji

  2. Estymacja E(Yh) • E(Yh) = μh =β0+ β1Xh, wartość oczekiwana Y gdy X=Xh • estymujemy E(Yh) za pomocą • = b0 + b1Xh

  3. Teoria estymacji E(Yh) • ma rozkład normalny o wartości oczekiwanej μh(jest estymatorem nieobciążonym) i wariancji σ2( )=

  4. Toria estymacji E(Yh) (2) • Normalność wynika z faktu, że • = b0 + b1Xh jest liniową kombinacją Yi

  5. Estymujemy σ2( ) za pomoca • s2( )= • t= ~ t(n-2)

  6. 95% przedział ufności dla E(Yh) • ± tcs( ) • gdzie tc = t(.025, n-2) • a s( ) =

  7. data a1; infile ‘../data/ch01ta01.dat'; input size hours; data a2; size=65; output; size=100; output; data a3; set a1 a2; proc print data=a3; proc reg data=a3; model hours=size/clm; run;

  8. Dep Var Predicted Obs size hours Value 26 65 . 294.4290 27 100 . 419.3861 Std Error Mean Predict 95% CL Mean 9.9176 273.9129 314.9451 14.2723 389.8615 448.9106

  9. ``Pasmo’’ ufności dla prostejregresji • ± Ws( ) • gdzie W2=2F(1-α; 2, n-2) • Wartości krytyczne leżą na hiperboli

  10. ``Pasmo’’ ufności dla prostej regresji • ``Pasmo’’ ufności związane jest z obszarem ufności dla (β0, β1 ), który jest elipsą. • Możemy obliczyć wartość alfa, dla której odpowiednie tcda te same wyniki • Zajdziemy W2i odpowiednie alfa dla tc,tak aby W = tc

  11. data a1; n=25; alpha=.10; dfn=2; dfd=n-2; w2=2*finv(1-alpha,dfn,dfd); w=sqrt(w2); alphat=2*(1-probt(w,dfd)); tc=tinv(1-alphat/2,dfd); output; proc print data=a1; run;

  12. Obs n alpha dfn dfd w2 1 25 0.1 2 23 5.09858 w alphat tc 2.25800 0.033740 2.25800

  13. data a2; infile‘../data/ch01ta01.dat'; input size hours; symbol1 v=circle i=rlclm97; proc gplot data=a2; plot hours*size; run;

  14. Predykcja Yh(new) • Yh = β0 + β1Xh + ξh • Var(Yh - )=Var Yh + Var = σ2+Var • S2(pred)= (Yh - )/s(pred) ~ t(n-2)

  15. data a1; infile ‘../data/ch01ta01.dat'; input size hours; data a2; size=65; output; size=100; output; data a3; set a1 a2; proc print data=a3; proc reg data=a3; model hours=size/cli; run;

  16. Dep Var Predicted Obs size hours Value 27 100 . 419.3861 Std Error Mean Predict 95% CL Predict 14.2723 314.1604 524.6117

  17. Uwagi • Błąd standardowy (Std Error Mean Predict)na tym wydruku to, s2( ), a nie s2(pred) • Przedział predykcyjny jest szerszy (często znacznie) niż przedział ufności dla wartości oczekiwanej

  18. 95% przedział ufności dla E(Yh) i 95% przedział predykcyjny dla Yh • ± tcs( ) • ± tcs(pred) • gdzie tc = t(.025, n-2)

  19. data a1; infile ‘../data/ch01ta01.dat'; input size hours; symbol1 v=circle i=rlclm95; proc gplot data=a1; plot hours*size; run; symbol1 v=circle i=rlcli95; proc gplot data=a1; plot hours*size; run;quit;

  20. Analiza wariancji (ANOVA) • (Całkowity) rozrzut Y opisujemy za pomocą Σ(Yi – )2 • Rozrzut ten wynika z dwóch przyczyn • Zależności od X (model) • Zakłóceń losowych

  21. ANOVA (Total) • SST = Σ(Yi – )2 • dfT = n-1 • MST = SST/dfT

  22. ANOVA (Total) (2) • MST tozwykły estymator wariancji Y gdy nie ma zmiennych wyjaśniających • SAS (w wersji angileskiej) używa nazwyCorrected Total • Nieskorygowana suma kwadratów to ΣYi2

  23. ANOVA (Model) • SSM = Σ( - )2 • dfM = 1 (za nachylenie) • MSM = SSM/dfM

  24. ANOVA (Error) • SSE = Σ(Yi – )2 • dfE = n-2 • MSE = SSE/dfE • MSE jest estymatorem warunkowej wariancji Y, przy ustalonym X

  25. ANOVA Source df SS MS Model 1 Σ( - )2 SSM/dfM Error n-2 Σ(Yi – )2 SSE/dfE Total n-1 Σ(Yi – )2 SST/dfT

  26. ANOVA (2) Source df SS MS F P Model 1 SSM MSM MSM/MSE .nn Error n-2 SSE MSE Total n-1

  27. Wartości oczekiwane • MSM, MSE to zmienne losowe • E(MSM) = σ2 + β12Σ(Xi – )2 • E(MSE) = σ2 • Gdy H0 zachodzi, β1 = 0, E(MSM) = E(MSE)

  28. Test F • F=MSM/MSE ~ F(dfM, dfE) = F(1, n-2) • Gdy H0 nie zachodzi, β1 0 i MSM jest zwykle większe niż MSE • Odrzucamy H0 dla dużych wartości F: • F F(α, dfM, dfE) = F(.05, 1, n-2) • W praktyce używamy p-wartości

  29. Test F (2) • Gdy H0 nie zachodzi, statystyka F ma niecentralny rozkładF • Jest to podstawą do obliczeń mocy Przypomnijmy, że t = b1/s(b1) testuje H0 • Można pokazać, że t2 = F • Oba testy zwracają te same p-wartości

  30. data a1; infile ‘h:/STAT512/ch01ta01.txt'; input size hours; proc reg data=a1; model hours=size; run;

  31. Sum of Mean Source DF Squares Square Model 1 252378 252378 Error 23 54825 2383 C Total 24 307203 F Value Pr > F 105.88 <.0001

  32. Par St Var DF Est Err t Pr>|t| Int 1 62.36 26.17 2.38 0.0259 size 1 3.57 0.34 10.29 <.0001

  33. Ogólne testy liniowe Porównujemy dwa modele • Yi = β0 + β1Xi+ ξi (model pełny) • Yi = β0 + ξi (model zredukowany) • Porównujemy za pomocą SSEs: SSE(F), SSE(R) • F=((SSE(R) - SSE(F))/(dfE(R) - dfE(F)))/ MSE(F)

  34. Prosta regresja liniowa • SSE(R)= Σ(Yi-b0)2= Σ(Yi- )2=SST • SSE(F)=SSE • dfE(R)=n-1, dfE(F)=n-2, • dfE(R )-dfE(F )=1 • F=(SST-SSE)/MSE=SSM/MSE

  35. R2 , r2 • r – klasyczny estymator współczynnika korelacji • r2 = R2 =SSM/SST = 1 – SSE/SST • Rozrzut wyjaśniony i niewyjaśniony

  36. Sum of Mean Source DF Squares Square Model 1 252378 252378 Error 23 54825 2383 C Total 24 307203 F Value Pr > F 105.88 <.0001

  37. R-Square 0.8215 (SAS) = SSM/SST = 252378/307203 Adj R-Sq 0.8138 (SAS) =1-MSE/MST =1-2383/(307203/24)

More Related