Wykład 11 Analiza wariancji (ANOVA)

Wykład 11Analiza wariancji (ANOVA) • Sposób analizy danych gdy mamy więcej niż dwa zabiegi lub populacje. • Omówimy ANOV-ę w najprostszej postaci. • Te same podstawowe założenia/ograniczenia co przy teście Studenta • W każdej populacji badana cecha ma rozkład normalny • Obserwacje są niezależne i losowe • Będziemy testowali hipotezy o średnich w populacjach i • Założenie – standardowe odchylenia badanej cechy w każdej populacji są sobie równe (podobne) więc możemy użyć uśrednionego SE

Uwaga: ANOVA może być stosowana także gdy próby nie są niezależne Np. W układzie zrandomizowanym blokowym (zasada podobna do testu Studenta dla powiązanych par) Nie będziemy tego omawiać. Omówimy tylko układy zupełne zrandomizowane. Cel: Testujemy hipotezy postaci: H0: 1 = 2 = 3 = … = k HA: nie wszystkie średnie są równe

Dlaczego nie stosujemy wielu testów Studenta? • Wielokrotne porównania • P-stwo błędu pierwszego rodzaju (p - stwo odrzucenia prawdziwej hipotezy) jest trudne do kontrolowania)

Korekta Bonferoniego • Prosta ale na ogół konserwatywna (p-stwo błędu pierwszego rodzaju mniejsze niż założone – strata mocy).

Estymacja błędu standardowego • ANOVA wykorzystuje informację zawartą we wszystkich obserwacjach: zwykle daje większą precyzję

Notacja: k = 3 zabiegi (próby, grupy)

Trzy rodzaje rachunków: Wewnątrz grup, pomiędzy grupami, całkowite. Liczymy trzy wartości: SS, df, MS

Notacja:

Dwa podstawowe typy rachunków: (gdzie konieczne, będziemy używali i do indeksowania grup a j do indeksowania obserwacji w każdej grupie : yij ) Wewnątrz każdej grupy oznacza sumę ``wewnątrz grupy’’

Uwzględniające wszystkie grupy oznacza sumę we wszystkich grupach np.n* = i

UWAGA: Gdy rozmiary prób nie są równe nie jest średnią z k średnich!!! Ale można ją obliczyć jako = (n1y1 + n2y2 + …+n3y3) / n*

Wewnątrz grup (wypełniamy drugi rząd w tabeli) Suma kwadratów wewnątrz grup (SSW) • Liczymy SS wewnątrz każdej grupy (itd. - SS2, SS3, …) SS1 = SS2 = … = 32, SS3 = … = 46

SSW = SS1+SS2+…+SSk= SSW = Stopnie swobody wewnątrz grup: dfw = n* - kdfw = Średnia suma kwadratów wewnątrz grup MSW = SSW / dfw MSW = To samo co uśredniona wariancja Dla przypomnieniadla dwóch prób

Uśrednione standardowe odchylenie sc = Pomiędzy grupami (wypełniamy pierwszy rząd tabeli) Porównujemy średnie grupowe do średniej całkowitej Ważone przez rozmiar grupy Suma kwadratów pomiędzy grupami (SSB) SSB = SSB =

Stopnie swobody pomiędzy grupami (dfb) dfb = k – 1 dfb = Średnia suma kwadratów pomiędzy grupami (MSB) MSB = SSB/dfb MSB = Całkowite Całkowita suma kwadratów (SST) SST= SST=82+12+22+…+82+52=348

Uwaga: SST = SSW+SSB 348 = 120 + 228 Zwykle nie trzeba liczyć SST z definicji Całkowita liczba stopni swobody (dft) dft = n* – 1 dft = Uwaga: dft = dfb+dfw 10 = 2 + 8

Tablica ANOV-y

Ta tabela będzie dostępna na kolokwium i egzaminie:

Test F • Dane dla k  2 populacji lub zabiegów są niezależne • Dane w każdej populacji mają rozkład normalny ze średnią idla populacji i, i tym samym odchyleniem standardowym 

Testujemy H0: 1 = 2 = 3 = … = k (wszystkie średnie są sobie równe) vs. HA: nie wszystkie średnie są sobie równe (HAjest niekierunkowa ale obszar odrzuceń będzie jednostronny) Kroki: Obliczenie tabeli ANOV-y Testowanie

Jak opisać F test • Zdefinować wszystkie • H0 podać za pomocą wzoru i słownie • HAtylko słownie • Statystyka testowa Fs = MSB/MSW • przy H0, Fsma rozkład Snedecora z dfb, dfw stopniami swobody • Na kolejnych slajdach podane są wartości krytyczne z książki D.S. Moore i G. P. McCabe ``Introduction to the Practice of Statistics’’ • "numerator df" = dfb i "denominator df" = dfw.

Odrzucamy H0 gdy zaobserwowane Fs > Fkrytyczne • Przykładowy wniosek - Na poziomie istotności α (nie) mamy przesłanki aby twierdzić, że grupy różnią się poziomem badanej cechy.

Przykład: Losową próbę 15 zdrowych mężczyzn podzielono losowo na 3 grupy składające się z 5 mężczyzn. Przez tydzień otrzymywali oni lekarstwo Paxil w dawkach 0, 20 i 40 mg dziennie. Po tym czasie zmierzono im poziom serotoniny. Czy Paxil wpływa na poziom serotoniny u zdrowych, młodych mężczyzn ? Niech1będzie średnim poziomem serotoniny u mężczyzn przyjmujących 0 mg Paxilu. Niech2 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 20 mg Paxilu. Niech3będzie średnim poziomem serotoniny u mężczyzn przyjmujących 40 mg Paxilu.

H0: 1 = 2 = 3 ; średni poziom serotoniny nie zależy od dawki Paxilu HA: średni poziom serotoniny nie jest ten sam we wszystkich grupach (albo średni poziom serotoniny zależy od dawki Paxilu). Zastosujemy F-Test

Fs = MSB / MSW przy H0ma rozkład Testujemy na poziomie istotności  = 0.05. Wartość krytyczna F.05 =. Obserwujemy Fs = Wniosek:

Na jakiej zasadzie to działa ? • Dla przypomnienia: • Test Studenta patrzy na różnicę między średnimi (y1-y2) • Dzieli ją przez miarę rozrzutu tej różnicy (SEy1-y2 ) • Jeżeli (y1-y2) jest duże w porównaniu do błędu standardowego to statystyka testu Studentajest duża i odrzucamy H0.

Dla testu F, Liczymy ``uśredniony kwadrat różnicy między średnimi’’ (MSB) Dzielimy go przez oszacowanie zróżnicowania w próbie (MSW) Jeżeli MSB jest duże w porównaniu do MSW wówczas statystyka testu F jest duża i odrzucamy H0. Test F jest analogiczny do testu Studenta ale umożliwia jednoczesne porównanie kilku średnich.

Test F można stosować również gdy mamy tylko dwie próby Statystyka testu F dla dwóch próbjest równa kwadratowi statystyki testu Studenta Decyzje i p-wartości są dokładnie takie same dla obu testów.

Wykład 11 Analiza wariancji (ANOVA)