290 likes | 647 Views
Nierówność informacyjna. Informacja zawarta w próbie. Zależność między wariancją estymatora S parametru l a informacją. Jeżeli obciążenie estymatora (B) jest równe zeru. Weryfikacja hipotez statystycznych. Hipoteza statystyczna – założenie co do rozkładu cech w populacji .
E N D
Nierówność informacyjna Informacja zawarta w próbie Zależność między wariancją estymatora S parametru l a informacją Jeżeli obciążenie estymatora (B) jest równe zeru
Weryfikacja hipotez statystycznych Hipoteza statystyczna – założenie co do rozkładu cech w populacji. Test statystyczny – narzędzie weryfikacji tej hipotezy. Testy parametryczne: weryfikacja hipotez parametrycznych, które dotyczą parametrów rozkładu danej cechy w populacji generalnej. Testy nieparametryczne: weryfikacja hipoteznieparametrycznych dotyczących, np. zgodności rozkładu cech w populacji z rozkładem teoretycznym, zgodności rozkładów cech w dwóch różnych populacjach, losowości próby.
Hipotezy i testy parametryczne Hipoteza prosta – zakłada wartości wszystkich parametrów rozkładu. Hipoteza złożona – wartość co najmniej jednego parametru jest nieznana (np. zakładamy tylko postać funkcyjną rozkładu). Hipoteza zerowa (Ho) – hipoteza, którą weryfikujemy. Hipoteza alternatywna (H1) – co najmniej jeden z parametrów rozkłady jest różny od tego z hipotezy zerowej.
Błędy popełniane podczas weryfikacji hipotez statystycznych Błąd pierwszego rodzaju (false negative) – odrzucenie prawdziwej hipotezy Ho. Błąd drugiego rodzaju (false positive) –przyjęcie fałszywej hipotezy Ho.
Poziom istotności (a) P(|x|³xo)=a (test dwustronny) P(x³xo)=a (test jednostronny) Obszar krytyczny (Sc): P(xÎSc|Ho)=a Poziom istotności definiuje prawdopodobieństwo popełnienia błędu pierwszwego rodzaju (odrzucenia prawdziwej hipotezy zerowej).
Moc testu: prawdopodobieństwo odrzucenia hipotezy zerowej w zależności od hipotezy alternatywnej. M(Sc,l)=P(XÎSc|H)=P(XÎSc|l) Test najmocniejszy hipotezy prostej Ho względem hipotezy alternatywnej H1: P(Sc,l1)=1-b=max Test jednostajnie najmocniejszy: test najmocniejszy względem jakiejkolwiek hipotezy alternatywnej.
Test F Fishera równości wariancji Mamy dwie populacje o rozkładzie normalnym (np. przypadek pomiaru tej samej wielkości różnymi przyrządami). Pytanie: czy te populacje mają tą samą wariancję. W tym celu rozważamy iloraz F=s12/s22
Weryfikacja hipotezy o równości wartości średnich z dwóch serii pomiarów
Przykład: porównywanie średnich z dwóch serii oznaczeń azotu w cynchoninie
Test Studenta dla par wiązanychOznaczanie zawartości NaOH w dwóch seriach roztworu po elektrolizie NaCl (mg/dm3) przed (x) i za filtrem (y)
Wykrywanie błędów grubych: test Dixona (nieparametryczny) x1 – wynik podejrzany o błąd gruby x2 – wynik mu najbliższy Wynik x1 możemy odrzucić na poziomie istotności a jeżeli Q > Q(a, n) (n jest liczbą pomiarów).
Testy nieparametryczne • Testy losowości: badamy, czy próba jest losowa • test mediany (Stevensa). • Testy zgodności: badamy, czy rozkład z próby jest zgodny z założonym • Test c2, test W Shapiro-Wilka, test Kołmogorowa test Lillieforsa (badanie normalności rozkładu). • Testy jednorodności: badamy, czy dwie próby pochodzą z tej samej populacji • test serii Walda-Wolfowitza, test U Manna-Whitneya, test Kołmogorowa-Smirnowa (dla prób niezależnych), • test znaków, test kolejnosci par Wilcoxona (dla prób zależnych).
Test c2 dobroci dopasowania gi: wynik i-tego pomiaru fi: wartość teoretyczna wyniku i-tego pomiaru si: odchylenie standardowe i-tego pomiaru. Wielkości ui mają rozkład normalny o zerowej średniej i jednostkowej wariancji a zatem wielkość T ma rozkład c2 o N-p stopniach swobody, gdzie p jest liczbą estymowanych parametrów funkcji f. Dopasowanie uznajemy za złe na poziomie istotności a jeżeli T>c21-a
Zastosowanie testu c2 do weryfikacji hipotezy o rozkładzie częstości obserwacji f(x) x } } } } x1 x2 … xk … xr
ni: liczba obserwacji wielkości w i-tym przedziale; n: całkowita liczba obserwacji. npi: wartość oczekiwana liczby obserwacji w i-tym przedziale Wartość oczekiwana wariancji liczby obserwacji. Hipotezę o zgodności rozkładu obserwowanego z rozkładem założonym odrzucamy na poziomie istotności a jeżeli C2>c21-a dla f stopni swobody. f=liczba stopni swobody=r-p-1 gdzie p jest liczbą parametrów rozkładu (najwyżej r-1 stopni swobody).
Przykład: porównanie liczby zliczeń par elektron-pozyton w komorze pęcherzykowej naświetlonej promieniowaniem g z rozkładem Poissona. C2=10.44 C20.99=16.81 Nie ma zatem podstaw do odrzucenia rozkładu Poissona.
Zastosowanie testu c2 do analizy tabeli wkładów x, y: zmienne losowe mogące przyjmować wartości odpowiednio x1, x2,…, xk oraz y1, y2,…, yl. Każdej kombinacji zmiennych (xi,yj) przyporządkowana jest liczba obserwacji nij. Jeżeli zmienne są współzależne na poziomie istotności a to C2>c21-a dla f=kl-1-(k+l-2)=(k-1)(l-1) stopni swobody.
Przykład z medycyny: ocena skuteczności dwóch metod leczenia danej choroby. x1: pierwsza metoda leczenia x2: druga metoda leczenia y1: przypadki wyleczone y2: przypadki niewyleczone f=liczba stopni swobody=(2-1)(2-1)=1 Jeżeli metody leczenia mają różną skuteczność to C2>c21-a
Test mediany (badanie losowości próby) • Wyznaczamy medianę (m). • Danym nieuporządkowanym przyporządkowujemy następujące oznaczenia: • A gdy x<m • B gdy x>m • 0 gdy x=m • Obliczamy liczbę następujących po sobie serii AAA…A i BBB…B. • Liczby serii spełniają rozkład normalny z następującą wartością średnią i wariancją na – liczba pomiarów A; nb – liczba pomiarów B; n – liczba pomiarów
Przykład (seria 12 pomiarów) Mediana m=35,7 n=12, na=6, nb=6 Liczba serii k=8 E(k)=2*6*6/12+1=7, s2(k)=2*6*6*(2*6*6-1)/[12*12*(12-1)]=3.23 Dla a=5% (ok. 3s odchylenia) przedział ufności rozciąga się od k=3 do k=10. Próba jest zatem losowa.
Test Wilcoxona (par wiązanych) • W tabeli ustawiamy w pary odpowiadające wielkości i obliczamy różnice. • Sortujemy pary według różnic. • Każdej parze przyporządkowujemy rangę, która jest równa numerowi porządkowemu pary (po sortowaniu), przy czym uśredniamy rangi, którym odpowiadają te same różnice. • Osobno sumujemy rangi dodatnie i ujemne. • Mniejsza z tych sum stanowi statystykę W Wilcoxona. • Porównujemy W z wartością krytyczną i odrzucamy hipotezę o identyczności wyników w parach jeżeli W>Wtab.
Dla dużych prób liczba znaków „+” spełnia rozkład normalny z wartością średnią E(W+) i wariancją s2(W+):