Wykład 9 Analiza wariancji (ANOVA)

Wykład 9Analiza wariancji (ANOVA) • Sposób analizy danych, gdy porównujemy więcej niż dwie populacje/zabiegi. • Omówimy ANOV-ę w najprostszej postaci. • Te same podstawowe założenia/ograniczenia, co przy teście Studenta: • W każdej populacji badana cecha ma rozkład normalny • Obserwacje są niezależne i losowe • Testujemy hipotezy o średnich w populacjach:I • Dodatkowe założenie – standardowe odchylenia badanej cechy w badanych populacjach są sobie równe (podobne) – użyjemy uśrednionego SE

Uwaga: ANOVA może być stosowana także wtedy, gdy próby nie są niezależne, np. w zrandomizowanym układzie blokowym (zasada podobna do testu Studenta dla par). Tutaj jednak omówimy tylko układy zrandomizowane zupełne (=jednoblokowe). Cel: Testujemy hipotezy postaci: H0: 1 = 2 = 3 = … = k HA: nie wszystkie średnie są równe

Dlaczego nie stosujemy wielu testów Studenta? • Wielokrotne porównania: prawdopodo-bieństwo błędu pierwszego rodzaju (odrzucenia prawdziwej hipotezy zerowej) byłoby trudne do kontrolowania. • Estymacja błędu standardowego: ANOVA wykorzystuje informację zawartą we wszystkich obserwacjach: zwykle daje większą precyzję obliczenia/mniejsze SE niż indywidualne testy Studenta dla par. • ANOVA automatycznie porównuje konfiguracje populacji większe niż pary.

Korekta Bonferoniego • Przy k testach na poziomie α, przyjmujemy łączny poziom istotności kα. • Prosta, ale na ogół konserwatywna: prawdo-podobieństwo błędu pierwszego rodzaju jest mniejsze niż założone kα – w efekcie strata mocy. • Np. przy porównywaniu 5 populacji testem Studenta dla niezależnych prób Bonferoni daje poziom istotności równy

Notacja: k = 3 zabiegi(grupy)

Trzy kategorie: wewnątrz grup, pomiędzy grupami, łącznie. W każdej - trzy wartości: SS, df, MS.

Notacja, cd.:

Używamy i do indeksowania grup a j do indeksowania obserwacji w każdej grupie, np: yij. oznacza sumę ``wewnątrz grupy’’:

Uwzględniające wszystkie grupy oznacza sumę po grupach: np.; tutajn* =

UWAGA: Gdy rozmiary prób nie są równe nie jest średnią z k średnich! Można ją obliczyć jako = (n1y1 + n2y2 + …+n3y3) / n*

Wewnątrz grup: wypełniamy drugi rząd w tabeli Suma kwadratów wewnątrz grup (SSW): Liczymy SS dla każdej grupy (SS2, SS3, itd.) SS1 = ..... SS2 = … = 32, SS3 = … = 46

SSW = SS1+SS2+…+SSk , tutaj SSW =.... Stopnie swobody wewnątrz grup: dfw = n* - k, tutajdfw =... Średnia suma kwadratów wewnątrz grup: MSW = SSW / dfw , tutaj MSW =... MSW to uśredniona wariancja, np.(wykład 6): Uśrednione odchylenie standardowe sc = , tutaj sc=...

Pomiędzy grupami: wypełniamy pierwszy rząd tabeli • Porównujemy średnie grupowe do całko-witej z wagą daną przez rozmiar grupy. • Suma kwadratów pomiędzy grupami (SSB) SSB = Tutaj SSB =....

Stopnie swobody pomiędzy grupami (dfb) dfb = k – 1,tutaj dfb = ... Średnia suma kwadratów pomiędzy grupami (MSB) MSB = SSB/dfb, tutaj MSB =...

Całkowite:wypełniamy trzeci rząd tabeli • Całkowita suma kwadratów (SST): SST= SST=82+12+22+…+82+52=348

Uwaga: SST = SSW+SSB, tu 348 = 120 + 228 Zwykle nie trzeba liczyć SST z definicji! Całkowita liczba stopni swobody (dft) dft = n* – 1 , tutaj dft = Uwaga: dft = dfb+dfw , tutaj 10 = 2 + 8

Tablica ANOV-y (ponownie)

Ta tabela będzie dostępna na kolokwium i egzaminie:

Test F (Fishera) • Założenia (jak w ANOV-ie): • Dane dla k  2 populacji/zabiegów są niezależne • Dane w każdej populacji mają rozkład normalny ze średnią i(dla populacji I), oraz z tym samym odchyleniem standardowym 

Testujemy H0: 1 = 2 = 3 = … = k (wszystkie średnie są sobie równe) przeciwko HA: nie wszystkie średnie są sobie równe HAjest niekierunkowa, ale obszar odrzuceń będzie jednostronny (duże dodatnie wartości statystyki) Kroki: Obliczenie tabeli ANOV-y Testowanie

Jak opisać F test • Zdefinować wszystkie • H0 podać za pomocą wzoru i słownie • HAtylko słownie • Statystyka testowaFs = MSB/MSW • Przy H0, Fsma rozkład F Snedecora ze stopniami swobody (dfb, dfw) • Na slajdach podane są wartości krytyczne z książki D.S. Moore i G. P. McCabe „Introduction to the Practice of Statistics” • „numerator df” = dfb, „denominator df” = dfw.

Odrzucamy H0 , gdy zaobserwowane Fs > Fkrytyczne • Przykładowy wniosek: „Na poziomie istotności α (nie) mamy przesłanki, aby twierdzić, że grupy różnią się poziomem badanej cechy.”

Przykład: Losową próbę 15 zdrowych mężczyzn podzielono losowo na 3 grupy składające się z 5 mężczyzn. Przez tydzień otrzymywali oni lekarstwo Paxil w dawkach 0, 20 i 40 mg dziennie. Po tym czasie zmierzono im poziom serotoniny. Czy Paxil wpływa na poziom serotoniny u zdrowych, młodych mężczyzn ? Niech1będzie średnim poziomem serotoniny u mężczyzn przyjmujących 0 mg Paxilu. Niech2 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 20 mg Paxilu. Niech3będzie średnim poziomem serotoniny u mężczyzn przyjmujących 40 mg Paxilu.

H0: 1 = 2 = 3 ; średni poziom serotoniny nie zależy od dawki Paxilu HA: średni poziom serotoniny nie jest ten sam we wszystkich grupach (albo średni poziom serotoniny zależy od dawki Paxilu). Zastosujemy F-Test

Fs = MSB / MSW przy H0ma rozkład... Testujemy na poziomie  = 0.05. Wartość krytyczna F.05 = ... . Obserwujemy Fs =... Wniosek:...

Na jakiej zasadzie to działa ? Dla przypomnienia: • Statystyka testu Studenta ma w liczniku różnicę między średnimi (y1-y2) • Tę dzielimy przez miarę rozrzutu tej różnicy (SEy1-y2 ) • Jeżeli (y1-y2) jest duże w porównaniu do błędu standardowego, to statystyka testu Studentajest duża i odrzucamy H0.

Dla testu F: W liczniku mamy „uśredniony kwadrat różnicy między średnimi” (MSB) W mianowniku mamy oszacowanie zróżnicowania w obserwacji (MSW) Jeżeli MSB jest duże w porównaniu do MSW, to statystyka testu F jest duża i odrzucamy H0. Test F jest analogiczny do testu Studenta. Umożliwia jednoczesne porównanie dowolnej liczby średnich.

Test F można stosować również, gdy mamy tylko dwie próby. Wtedy: Statystyka testu F dla dwóch próbjest równa kwadratowi statystyki Studenta (przy (U)SE). Decyzje i p-wartości są dokładnie takie same dla obu testów.

Wykład 9 Analiza wariancji (ANOVA)