450 likes | 624 Views
Wykład 13 Przykład z muszkami (krzyżówka wsteczna CcNn z ccnn). Uzupełniamy tabelkę wartościami oczekiwanymi przy Ho. Czy w badanej populacji muszek kolor oczu i kształt skrzydła są zmiennymi niezależnymi ? p 1 = Pr( czerwone oczy | normalne skrzydła ),
E N D
Wykład 13 Przykład z muszkami (krzyżówka wsteczna CcNn z ccnn)
Czy w badanej populacji muszek kolor oczu i kształt skrzydła są zmiennymi niezależnymi ? p1= Pr(czerwone oczy|normalne skrzydła), p2= Pr(czerwone oczy|mniejsze skrzydła), H0: p1 = p2 ; kolor oczu i rozmiar skrzydła są niezależne HA: p1p2 ; kolor oczu i rozmiar skrzydła są zmiennymi zależnymi
Zastosujemy test chi-kwadrat dla niezależności 2s = (O-E)2/E ma przy H0 rozkład 21. Testujemy na poziomie = 0.05; odrzucamy gdy 2s > 3.84 = 2critical X2 = Wniosek
Nie możemy jednak powiedzieć, że czerwone oczy powodują, że muszka ma normalne skrzydła. Prawidłowy wniosek to obserwacja, że kolor oczu i kształt skrzydła są zmiennymi zależnymi albo, że u muszek z normalnymi skrzydłami częściej występują czerwone oczy niż u muszek z mniejszymi skrzydłami. Nie możemy formułować wniosku przyczynowego ponieważ nie kontrolujemy analizowanych zmiennych a jedynie je obserwujemy. [W tym wypadku zależność wynika z faktu, że geny determinujące kształt oczu i rozmiar skrzydła leżą na jednym chromosomie.]
Tablice wielodzielcze: rk • r rzędów, k kolumn: rk • Analiza analogiczna do tablic 22. • Przykład: 34 (r = 3 ; k = 4 )
Czy kolor oczu i włosów są zmiennymi zależnymi? H0: Kolor włosów i kolor oczu to zmienne niezależne HA: Kolor oczu i kolor włosów to zmienne zależne Wykonujemy test niezależności chi-kwadrat 2 = (O-E)2/E ma przy H0 rozkład 26. {df = (r-1)(k-1) = (2)(3) = 6}
Testujemy na poziomie = .0005. Wartość krytyczna 26 = . • 2s = • Wniosek • Tablica wartości krytycznych z książki ``Introduction to the Practice of Statistics’’, D.S. Moore, G. P. McCabe
Estymator dla Pr(Oczy niebieskie) = • Estymatordla Pr(Oczy niebieskie| włosy brązowe) = • Estymator dla Pr(Oczy niebieskie|czarne włosy) = • Estymator dla Pr(Oczy niebieskie|jasne włosy) = • Estymator dla Pr(Oczy niebieskie| rude włosy) =
Testowanie niezależności odpowiada testowaniu, że odpowiednie p-stwa warunkowe są te same w każdej klasie. Gdy testujemy niezależność w dużych tabelach to na ogół nie zapisujemy H0za pomocą p-stw warunkowych Przypomnienie założeń: Próby losowe Obserwacje niezależne "E" w każdej komórce musi być 5
Dokładny test Fishera • Stosujemy dla małych rozmiarów prób • Przykład : ECMO • ECMO to ``nowa’’ procedura służąca ratowaniu noworodków cierpiących na poważne zaburzenia pracy układu oddechowego. • CMT – konwencjonalna terapia
H0: wynik nie zależy od zabiegu • Znajdziemy warunkowe p-stwo zaobserwowanych wyników przy ustalonych ``sumach’’ w rzędach i kolumnach (przy H0). • Przypomnijmysymbol Newtona - • – na tyle sposobów można wybrać zbiór k elementowy ze zbioru n elementowego
Na ile sposobów dokładnie 4 dzieci spośród 5 z tych które ``miały’’ umrzeć mogło przypadkowo zostać przyporządkowanych do grupy CMT – • Na ile sposobów dokładnie 6 dzieci spośród 34 z tych które ``miały’’ przeżyć mogło przypadkowo zostać przyporządkowanych do grupy CMT – • Na ile sposobów 10 dzieci spośród 39 mogło przypadkowo zostać przyporządkowanych do grupy CMT –
HA: ECMO jest lepsza niż CMT • Przypadki bardziej ekstremalne w kierunku alternatywy • # liczba śmierci = CMT:4, ECMO:1 CMT:5, ECMO:0 • P-wartość = • Wniosek
Przedziały ufności dla różnicy między p-stwami warunkowymi • W tabelach 2x2, wyrażamy H0jakop1 = p2 • Przykład z lekarstwem • p1 = Pr(poprawa | lekarstwo), p2 = Pr(poprawa | placebo).
Przybliżony 95% PUdla p1-p2wynosi W przykładzie z lekarstwami
PUdla p1-p2wynosi Mamy 95% pewności, że p-stwo poprawy po zażyciu lekarstwa jest większe od p-stwa poprawy po zażyciu placebo o co najmniej i nie więcej niż o W ogólności do konstrukcji przedziałów ufności na poziomie (1–) stosujemy Z/2(zamiast 1.96) .
Regresja liniowa • Dane: pary obserwacji (X, Y), • (x1, y1), (x2, y2), …, (xn, yn) • Przykłady: X = stężenie, Y = szybkość reakcji • X = dawka, Y =odpowiedź • X = waga, Y = wzrost • X = wyniki z pierwszego kolokwium, • Y = wyniki z drugiego kolokwium
Najczęściej mamy jedną losową próbę i obserwujemy dwie zmienne • Czasami jedną z tych zmiennych kontrolujemy – wówczas zwykle nazywamy ją X a ``odpowiedź’’ oznaczamy jako Y
Wartości brzegowe: Jak zwykle średniex = x/n, y = y/n Sumy kwadratów: SSX = (x-x)2 = 28 = (n-1) sX2 , SSY = (y-y)2 = 26 = (n-1) sY2 Sx= Sy=
Nowa wielkość: "suma iloczynów“ SPXY = (x –x)(y –y) = Mierzy stopień korelacji między X i Y Próbkowy współczynnik korelacji Gdy r>0 wtedy ``najlepsza’’ prosta opisująca relację między X i Y odpowiada funkcji rosnącej a gdy r<0 funkcji malejącej. ,
r jest estymatorem współczynnika korelacji w populacji • Gdy zmienne są niezależne wtedy ρ=0 (ale nie zawsze na odwrót). • Jeżeli ρ=1 to Y=aX+b, a>0. • Jeżeli ρ=-1 to Y=aX+b, a<0.
r=1 wtedy i tylko wtedy gdy wszystkie punkty obserwacyjne leżą na prostej o dodatnim współczynniku nachylenia • r=-1 wtedy i tylko wtedy gdy wszystkie punkty obserwacyjne leżą na prostej o ujemnym współczynniku nachylenia. • Wygodny wzór do obliczeń • SPXY = (xy) – (x)(y)/n = xy – nxy =
Model statystyczny • Y = 0 + 1 X + błąd losowy • Dla ustalonej wartości X, Y jest zmienną losową o wartości oczekiwanej • Y|X = 0 + 1 X i odchyleniu standardowymY|X . Będziemy zakładali, że Y|Xnie zależy od X. • Nasz cel – estymacja 0 i1.
1estymujemy za pomocą • b1 = 0estymujemy za pomocą • b0 = y - b1x = • Wyestymowana prosta regresji ma wzór
W jakim sensie ta prosta jest najlepsza ? • Dla każdej wartości możemy obliczyć wartość y przewidywaną przez daną prostą • = b0 + b1 x . • Dla każdej pary obserwacji (x,y) obliczamy różnicę między wartością zaobserwowaną y a przewidywaną • różnica = y -
Suma kwadratów różnic • Definicja: • SS(res) = (y- )2 • Możemy korzystać ze wzoru • SS(res) = SSY - SP2XY /SSX • SS(res) =
``Najlepsza’’ prosta to taka, która daje najmniejszą możliwą wartość SS(res) • SS(res) mierzy jakość dopasowania
Resztowy błąd standardowy • sY|X = • sYmierzy rozrzut y od y • sY|Xmierzy rozrzut y od ``najlepszej’’ prostej • Około 68% obserwacji jest w odległości nie większej niż 1 sY|X od prostej; 95% w odległości 2 sY|Xod prostej. • Uwaga – odległość liczymy na osi y.
Y ~ N(Y|X, Y|X) • Zatem Y - Y|X • Tak więc błąd losowy • Dodatkowo zakładamy (tak jak w ANOV-ie), żeY|X nie zależy od X. • Y|Xestymujemy za pomocą sY|X .
Tak więc nasz wyestymowany model Jak dobre są nasze estymatory ? SEb1 = = 0.322
(b1- 1) / SEb1ma rozkład Studenta z df = n-2 stopniami swobody. Możemy więc skonstruować 95% PU dla1,
Testowanie Chcemy przetestować czy Y i X są zależne, a dokładniej czy średnia Y zależy od X. W ramach modelu liniowego odpowiada to testowaniu hipotezy czy 1 =
Czy (Y) zależy od (X) ? (Dokładniej - Czy X i Y są skorelowane ?) H0: 1 = 0. (Y) nie zależy (X). (Y|Xnie zależy od X) HA: 1 0 (Y|Xzależy od X) [HAmoże być kierunkowa, 1 < 0 lub1 > 0] Użyjemy testu niekierunkowego. ts = b1 / SEb1przy H0 ma rozkład Studenta z df = n-2 = stopniami swobody. Wartość krytyczna t.025 =3.182.
ts = b1 / SEb1 = -0.7857/0.322 = 2.44 –3.182 < 2.44 < 3.182, więc Na poziomie istotności 0.05 nie mamy przesłanek aby twierdzić, że X i Y są skorelowane (albo że Y zależy od X). UWAGA Testujemy zależność Y od X w ramach modelu liniowego. Ten test nie jest w stanie wykryć pewnych nieliniowych form zależności. Mały rozmiar próby – kiepska moc.
Przykład • Długość i ciężar węży • SSX = (x-x)2 =172 SPXY = xy – nxy =1237 • b1 = = 1237/172 = 7.19 • b0 = y - b1x = 152- 7.19*63 = -301 • Y = -301 + 7.19 X + błąd
SEb1 = • 95% PUdla β1: 7.19 ± t0.025(7)*0.9531 = (4.9, 9.4) • Testowanie ts = b1/ SEb1 = 7.19/0.9531=7.54 P-wartość < 0.001