380 likes | 1.93k Views
Analiza Wariancji ANOVA. Iwona Sienicka Henryk Kalinowski. Plan prezentacji:. Podstawy analizy wariancji. Jednoczynnikowa ANOVA. Dwuczynnikowa ANOVA. Analiza wariancji :. Pozwala ustalić wpływ przynależności jednostki do określonej grupy na wartość badanej zmiennej.
E N D
Analiza WariancjiANOVA Iwona Sienicka Henryk Kalinowski
Plan prezentacji: • Podstawy analizy wariancji. • Jednoczynnikowa ANOVA. • Dwuczynnikowa ANOVA.
Analiza wariancji : • Pozwala ustalić wpływ przynależności jednostki do określonej grupy na wartość badanej zmiennej. • Możemy porównywać więcej niż dwie grupy. • Pozwala na wprowadzenie więcej niż jednego kryterium klasyfikacji. • Umożliwienie zmierzenia nie tylko istotności różnicy, ale również jej siły.
AnalizaWariancji • Hipoteza zerowa H0: Średnie w populacji są równe • m1 = m2 = m3 = m4 • Hipoteza alternatywna H1: Co najmniej jedna para średnich nie jest sobie równa • m1≠ m2≠ m3≠ m4
Założenia analizy wariancji: • odchylenia od średnich grupowych mają rozkład normalny • homogeniczność wariancji w poszczególnych podgrupach • poszczególne obserwacje są od siebie niezależne • działania poszczególnych czynników są addytywne (gdy jest ich więcej niż 1)
Całkowita wariancja (SST - suma odchyleń obserwacji od średniej w całej próbie) MST=SST/(N-1) Wariancja wyjaśniona przez eksperyment Wariancja międzygrupowa Wariancja kontrolowana Wariancja niewyjaśniona przez eksperyment Wariancja wewnątrzgrupowa Wariancja błędu (SSTR - suma odchyleń średnich w grupach od średniej w całej próbie - ważonych liczbą obserwacji w każdej grupie) MSTR=SSTR/(G-1) (SSE - suma odchyleń obserwacji od odpowiadających im średnich grupowych) MSE=SSE/(N-G) N-liczba przypadków, G-liczba grup Im wyższe MSTR a niższe MSE, tym w większym stopniu wyodrębniony czynnik wyjaśnia nam zróżnicowanie badanej zmiennej.
Statystyka F: • F = MSTR / MSE • Na podstawie danych obliczamy statystykę testu F. Obszar krytyczny wyznaczamy w oparciu o tablice rozkładu F. • Jeżeli statystyka testu jest większa od wielkości obszaru krytycznego dla poziomu istotności 0,05, to odrzucamy hipotezę zerową.
SPSS • Analyze -> Compare Means ->One-Way ANOVA • Dependent list: ile godzin w Internecie, Factor: dostęp do internetu
ANOVA Analiza Porównywanie średnich Jednoczynnikowa ANOVA Zmienna zależna – zmienna ilościowa, której średnie w grupach porównujemy. Można wybrać więcej niż jedną – przeprowadzone będą oddzielne analizy dla każdej zmiennej. Sprawdzanie wpływu zmiennej jakościowej (czynnika) na ilościową (zmienną zależną). Badana jest hipoteza o równości średnich zmiennej zależnej w grupach tworzonych przez poziomy (kategorie) czynnika. Czynnik – zmienna jakościowa. Średnie są porównywane w grupach tworzonych przez kategorie czynnika. / Zmienna, której wpływ na zmienną zależną badamy.
ANOVA Opcje... • Możliwość obliczenia dodatkowych statystyk: • Opisowych • Efektów stałych i losowych (w zależności od rodzaju analizy wariancji – czy kontrolujemy czynnik (efekt stały), czy też jest on losowy(efekt losowy)) • Testu jednorodności wariancji (równość wariancji w grupach) • Testów Browna-Forsytha i Welcha – są to mocna testy równości średnich, stosowane kiedy wariancje nie jest spełnione założenie o równości wariancji w grupach • - Wykresu średnich Jeśli wykonuje się analizę wariancji dla więcej niż jednej zmiennej zależnej. Obserwacje z brakami danych, dla którejś z analizowanych zmiennych mogą być wyłączane w każdej analizie (wyłączanie wszystkich obserwacji z brakami) lub tylko w analizie z udziałem tej zmiennej (wyłączanie obserwacji analiza po analizie)
Porównywanie średnich Istotność jest mniejsza od założonej wartości (np. 0,05), więc odrzucamy hipotezę o równości średnich w grupach zdefiniowanych przez zmienną niezależną.
Sprawdzenie założeń Test Levene’a wskazuje, że założenie o homogeniczności wariancji w poszczególnych podgrupach nie jest spełnione. ANOVA jest jednak stosunkowo odporna na niespełnienie tego założenia.
ANOVA Wybrane statystyki dla zmiennej zależnej: ogółem i dla grup zdefiniowanych poziomami czynnika.
ANOVA Wykres średnich Means Plot Można na nim sprawdzić, które średnie różnią się między sobą. Średnia dla osób nie posiadających dostępu do Internetu.
ANOVA Istotność jest mniejsza od założonej wartości (np. 0,05), więc odrzucamy hipotezę o równości średniej w grupach zdefiniowanych poziomami czynnika. Mocne testy równości średnich można zastosować kiedy wariancje w grupach nie są równe – nie jest spełnione jedno z założeń analizy wariancji.
Testy Post Hoc: • Za ich pomocą dokonujemy porównań parami średnich we wszystkich kombinacjach • Jeśli mamy cztery grupy: 1-2; 1-3; 1-4; 2-3; 2-4; 3-4 • Porównania parami kontrolują poziomu błędu I rodzaju
ANOVA Post hoc... Testy zakładające równość wariacji w grupach. Testy wielokrotnych porównań parami (Tukey’a, GT2 Hochberga, Gabriela, Scheffe’a, Bonferroniego, Sidaka, Dunnett’a, NIR i wszystkie dla nierównych wariancji) pozwalają stwierdzić, które średnie różnią się między sobą. Każda średnia porównana jest z każdą inną. Testy do zastosowania, kiedy wariancje nie są równe. Testy rozstępu (Tukey’a, GT2 Hochberga, Gabriela, Scheffe’a, b Tukey’a, F R-E-G-W, Q R-E-G-W, S-N-K, Dunkana, Wallera-Dunkana) identyfikują podzbiory średnich nie różniących się istotnie między sobą).
ANOVA Istotność jest mniejsza od założonej wartości (np. 0,05), oznacza to, że średnie dla posiadaczy modemu i stałego łącza różnią się istotnie. Porównania wielokrotne – porównywane są wszystkie średnie w grupach ze wszystkimi.
Analiza wariancji z klasyfikacją wielokrotnąpozwala nam zbadać, jaki wpływ na populację mają kombinacje czynnikównp. w przypadku dwuczynnikowej ANOVy – czynnika A i B.
W rezultacie otrzymamy trzy efekty – efekty swoiste czynnika A oraz B oraz efekt interakcji AB. Efekt swoisty - efekt działania każdego z czynników z osobna (bez względu na poziom drugiego czynnika).Efekt interakcji - występuje, gdy efekt uzyskany przy danym poziomie jednego czynnika zależy od poziomu drugiego; nie miałby miejsca bez połączenia dwóch czynników na danym poziomie.Jeżeli interakcja nie zachodzi, to czynniki są addytywne.
Model • Badamy daną cechę populacji (jej natężenie - średnią) w podgrupach ze względu na działanie dwóch czynników A i B. • Otrzymujemy n*k kombinacji poziomów (gdyż istnieje n poziomów czynnika A i k poziomów czynnika B) • Jako pierwszą sprawdzamy zawsze hipotezę dotyczącą interakcji, gdyż interpretacja wyników testów na efekty swoiste zależy od tego, czy czynniki są addytywne, czy nie.
Założenia: • Normalność i identyczna wariancja rozkładu ze względu na badaną cechę w każdej podpróbie • Obserwacje pochodzą z losowych prób • Liczba obserwacji o poszczególnych kombinacjach poziomów czynników jest identyczna
Model Xijk=xsr+ai+bj+(ab)ij+eijk Xsr – średnia ogólna, dla całej populacji ai – efekt działania czynnika A na poziomie i (i=1,2,...,n) bi – efekt działania czynnika B na poziomie i (i=1,2,...,k) (ab)ij – efekt interakcji czynników A i B na poziomach odpowiednio i oraz j eijk – błąd losowy o rozkładzie normalnym, średniej równej zero i stałej wariancji
Model SST = SSTR + SSE Zmienność (wariancja) całkowita = zmienność wynikająca ze zróżnicowania grup (wyjaśniona, międzygrupowa) + błędy losowe (zmienność niewyjaśniona, wewnątrzgrupowa) SSTR = SSA + SSB + SS(AB) zmienność wyjaśniona = zmienność wynikająca z czynnika A + zmienność wynikająca z czynnika B + zmienność wynikająca z interakcji czynników
Testowanie hipotez 1.Test na efekt swoisty czynnika A Ho: dla każdego i=1,2,...,n ai=0H1: istnieje i, dla którego ai ≠ 0Test sprawdza, czy istnieją statystycznie istotne różnice między średnimi badanej cechy, wynikające z zastosowania czynnika A na określonym poziomie 2. Test na efekt swoisty czynnika B (analogicznie) 3. Test na interakcjęHo: dla każdego i=1,2,...,n oraz j=1,2,...,k (ab)ij=0H1: istnieje i oraz j, dla którego (ab)ij ≠ 0
Statystyki testujące • Efekty swoiste: - czynnika A F=MSA/MSE, df: (n-1) i nk(N-1) - czynnika B F=MSB/MSE, df: (k-1) i nk(N-1) • Efekt interakcji: F=MS(AB)/MSE df: (n-1)(k-1) i nk(N-1) Gdzie: MSA=SSA/(n-1), MSB=SSB/(k-1), MS(AB)=SS(AB)/(n-1)(k-1), MSE=SSE/nk(N-1)
SPSS Analyse -> General Linear Model -> Univariate Analiza -> Ogólny Model Liniowy -> Jednej Zmienne
Przykład Zbadajmy wpływ roku studiów i płci na czas spędzany w internecie.
Z testu wynika, że efekt swoisty zarówno pierwszego jak i drugiego czynnika jest istotny statystycznie, zaś efekt interakcji jest nieistotny statystycznie.
Przecięcie się krzywych wskazuje na występowanie interakcji między czynnikami