330 likes | 631 Views
Metoda. analizy wariancji. Analiza wariancji. Metoda analizy wariancji została opracowana w latach dwudziestych przez R. Fishera, znajdując najpierw zastosowanie w doświadczalnictwie rolniczym.
E N D
Metoda analizy wariancji
Analiza wariancji Metoda analizy wariancji została opracowana w latach dwudziestych przez R. Fishera, znajdując najpierw zastosowanie w doświadczalnictwie rolniczym. Uogólniając, analiza wariancji jest techniką badania, czy określone czynniki wywierają wpływ na analizowaną cechę. Rozpatrzmy pewną populację generalną , w której obserwujemy zmienną losową .
Analiza wariancji (c.d.) Załóżmy dalej, że istnieje pewien czynnik oddziaływujący na wartości tej zmiennej i pozwalający na wydzielenie a podpopulacji (co najmniej dwóch podpopulacji): .... Celem analizy wariancji jest zweryfikowanie hipotezy o równości średnich generalnych w podpopulacjach:
Analiza wariancji - czynnik badany Czynnik oddziaływujący na wartości zmiennej losowej dość często nazywany jest czynnikiem badanym lub klasyfikacyjnym. Czynnik ten może mieć charakter zarówno ilościowy, jak i jakościowy. W doświadczalnictwie rolniczym przykładem czynnika o charakterze ilościowym może być choćby nawożenie mineralne NPK, a czynnikiem jakościowym np. odmiany pszenicy.
Poziomy czynnika badanego Przez poziomy czynnika badanego rozumiemy konkretne jego wartości wpływające na sposób sklasyfikowania wartości zmiennej losowej. W przypadku wspomnianego nawożenia NPK poziomami tego czynnika są konkretne dawki, np. 120, 180 i 240 kg NPK. W przypadku czynnika jakościowego (np. odmiany pszenicy), będą to konkretne odmiany. W sytuacji podanej wyżej rozpatrywane są konkretne poziomy czynnika, dlatego tego typu czynnik nazywamy stałym. Można jednak poziomy czynnika traktować jako reprezentację wszystkich możliwych jego poziomów (np. dawek NPK czy odmian). Tak traktowany czynnik ma charakter czynnika losowego.
Jedno i wieloczynnikowa analiza wariancji Można rozważać takie eksperymenty, że na daną zmienną losową oddziaływuje tylko jeden czynnik, mamy wtedy do czynienia z jednoczynnikową analizą wariancji. W sytuacjach, gdy czynników klasyfikujących jest więcej, mówimy o wieloczynnikowej analizie wariancji. Analizie wariancji można poddać pojedynczą cechę, mówimy wtedy o jednozmiennej analizie wariancji oznaczanej symbolicznie jako ANOVA. Analiza wariancji może dotyczyć wielu cech jednocześnie, mówimy wtedy o wielozmiennej analizie wariancji - MANOVA.
Jednoczynnikowa analiza wariancji Weryfikacja hipotezy zerowej o jednoczesnej równości średnich generalnych w podpopulacjach: wymaga pobrania próby losowej (z reguły w wyniku odpowiednio zaplanowanego eksperymentu) o liczebnościach odpowiednio . Oznaczmy wyniki próby przez , gdzie jest wskaźnikiem poziomów czynnika badanego (klasy-fikacyjnego), a jest wskaźnikiem powtórzeń (replikacji).
ANOVA 1 (c.d.) Każdą obserwację można zapisać jako sumę wspólnej średniej generalnej m, efektu i-tego poziomu czynnika badanego (klasyfikacyjnego) ai oraz efektu czynnika losowego eij: (1) O efektach losowych zakładamy, że mają rozkład i są niezależne. Z modelu (1) wynika, że wartość oczekiwana w i-tej grupie jest równa: (2)
ANOVA 1 (c.d.) Z wzoru (2) wynika, że efekt ai jest odchyleniem średniej w danej grupie od średniej ogólnej: (3) Tym samym hipotezę o jednoczesnej równości średnich generalnych możemy zapisać w postaci: (4) Procedura weryfikacyjna powyższej hipotezy opiera się na udziale zróżnicowania między średnimi w grupach w stosunku do ogólnego zróżnicowania danej cechy.
ANOVA 1 (c.d.) Na podstawie wyników próby losowej rozdzielimy ogólną zmienność na dwa niezależne składniki (zgodnie z modelem 1): • zmienność między grupami mierzącą wpływ czynnika badanego (klasyfikującego). • zmienność wewnątrz grup będącą miarą zróżnicowania przypadkowego. W kolejnym kroku ocenimy wkład obu zmienności w ogólną zmienność badanej cechy i na tej podstawie będziemy wnioskować o prawdziwości hipotezy zerowej.
ANOVA 1 (c.d.) Tabela analizy wariancji Źródło Stopnie Suma kw. Średni kw. Femp F zmienności swobody odchyleń odchyleń Czynnik vA SSA MSA FA Błąd vE SSE MSE Całkowita vT SST gdzie:
Obliczenia analizy wariancji Dalsze wzory analizy wariancji:
Wnioskowanie w analizie wariancji Przy prawdziwości statystyka ma rozkład F-Fishera z liczbami stopni swobody vA i vE. Jeżeli więc , to H0odrzucamy jako zbyt mało prawdopodobną. Merytorycznie formułujemy wniosek, że czynnik klasyfikacyjny istotnie wpływa na wartości badanej cechy. Oznacza to jednocześnie, że co najmniej jedna średnia grupowa (obiektowa) różni się od pozostałych.
Wnioskowanie w analizie wariancji (c.d.) W dalszej części zajmiemy się sposobami szczegółowego porównania średnich grupowych w takiej sytuacji. W sytuacji, gdy (lub krytyczny poziom istotności jest większy od przyjętego )nie mamy podstaw do odrzucenia hipotezy zerowej i tym samym badanie statystyczne wpływu czynnika klasyfikacyjnego jest zakończone. Oznacza to, że ewentualne różnice między średnimi grupowymi (w próbie) mają tylko charakter losowy.
Porównania szczegółowe W przypadku odrzucenia hipotezy zerowej wiemy, że co najmniej jedna średnia grupowa różni się od pozostałych. Problemem pozostaje rozdzielenie średnich na tzw. grupy jednorodne. Pod pojęciem grupy jednorodnej będziemy rozumieć taki zestaw średnich w populacjach, w którym dla każdej pary średnich próbkowych zachodzi związek:
Porównania szczegółowe (c.d.) Najmniejsza istotna różnica może być skonstruowana z użyciem różnych statystyk (najczęściej): • t-Studenta (LSD) • t studentyzowanego rozstępu (NIR Tukey’a -HSD, Newmana-Keulsa) • F (NIR Scheffego) Ogólnie NIR będziemy wyznaczać wg wzoru: gdzie jest wartością tablicową odpowiedniej statystyki, a Sr błędem różnicy średnich.
Porównania szczegółowe (c.d.) W sytuacji, gdy w próbie losowej w każdej podgrupie mamy taką samą liczbę obserwacji (powiedzmy równą n) błąd różnicy średnich wyznaczamy z wzoru: W tych przypadkach, gdy liczba obserwacji w podgrupach jest różna, można skorzystać z wzoru: gdzie
Przykład liczbowy W celu porównania oceny ogólnej 5 wybranych produktów spożywczych zaplanowano odpowiedni eksperyment, w wyniku którego uzyskano poniższe wyniki: P1 P2 P3 P4 P5 1 8 8 7 7 7 2 7 9 7 9 6 3 7 8 8 7 7 4 8 9 7 8 6 Dane powyższe zostaną opracowane zgodnie z modelem liniowym jednoczynnikowej analizy wariancji:
Przykład liczbowy (c.d.) Obliczamy odpowiednie sumy i średnie: P1 P2 P3 P4 P5 1 8 8 7 7 7 37 2 7 9 7 9 6 38 3 7 8 8 7 7 37 4 8 9 7 8 6 38 Sumy 30 34 29 31 26 150 średnie 7.50 8.50 7.25 7.75 6.50 7.50 Obliczamy dalej: Poprawka = 150*7.50 = 1125 SST = (82 + 72 + ... + 62) - P = 1140 - 1125 = 15 SSA = (30*7.50 + ... + 26*6.50) - P = 1133.50 - 1125 = 8.5
Przykład liczbowy (c.d.) Pozostałe obliczenia zestawiamy już w tabeli analizy wariancji. Zmienność St. sw. S.S M.S Femp. F0.05 Produkt 4 8.5 2.125 4.904* 3.06 Błąd 15 6.5 0.43 Całkowita 19 15 Wnioskowanie: Ponieważ hipotezę o braku zróżnicowania między produktami odrzucamy. Oznacza to jednocześnie, że istnieją co najmniej 2 grupy jednorodne.
Przykład liczbowy, szczegółowe porównania Obliczamy i dalej NIR Tukey’a Poniżej mamy uporządkowane średnie dla produktów i ich podział na grupy jednorodne. P2 8.50 a P4 7.75 0.75 ab P1 7.50 1.00 0.25 ab P3 7.25 1.25 0.50 ab P5 6.50 2.00 1.25 b
Analizy wieloczynnikowe Wieloczynnikowe analizy wariancji rozpatrzymy na przykładzie dwuczynnikowej analizy. Model liniowy tego typu analizy może mieć postać: (5) W modelu tym, poza efektami głównymi czynników badanych A i B pojawia się efekt współdziałania (interakcji) tych czynników: abij . Pod pojęciem interakcji będziemy rozumieć wzajemny wpływ poziomów jednego czynnika na poziomy drugiego z nich. Badanie interakcji dostarcza informacji na pytanie, czy analizowana cecha reaguje tak samo na zmiany poziomów jednego czynnika na tle zmian poziomów drugiego z nich.
Analizy wieloczynnikowe (c.d.) Tabela analizy wariancji modelu (5) Źródło Stopnie Suma kw. Średni kw. Femp F zmienności swobody odchyleń odchyleń Czynnik A vA SSA MSA FA Czynnik B vB SSB MSB FB Inter. AB vAB SSAB MSAB FAB Błąd vE SSE MSE Całkowita vT SST Analiza wykona wg tego modelu pozwala na zweryfikowanie trzech hipotez zerowych:
Analizy wieloczynnikowe Szczegółowe porównania W przypadku stwierdzenia istotności wpływu czynnika A, czy czynnika B przeprowadzamy szczegółowe porównanie odpowiednich średnich obiektowych stosując standardową procedurę porównań. Błędy różnicy średnich, niezbędne do wyznaczenia odpowiednich NIR-ów wyznaczamy wg wzorów:
Szczegółowe porównania (c.d.) W przypadku istotności interakcji powinniśmy wyznaczyć dwa NIR-y: jeden dla porównań poziomów czynnika A przy ustalonych poziomach czynnika B oraz drugi dla porównań poziomów czynnika B przy ustalonych poziomach czynnika A. W przypadku analizy wariancji zgodnie z modelem (5) NIR-y te będą się tylko różniły wartościami krytycznymi odpowiednich statystyk (jeżeli czynniki A i B mają różną liczbę poziomów). Błąd różnicy średnich znajdujemy z wzoru:
Interpretacja graficzna interakcji Wygodną formą prezentacji interakcji jest przygotowanie odpowiedniego wykresu. Poniżej pokazana jest interakcja (istotna) dwóch czynników (doświadczenia x produkty).
Planowanie i analiza doświadczeń wieloczynnikowych Przedstawiony w modelu (5) schemat analizy dwuczynnikowej był jednym z najprostszych przykładów eksperymentu z krzyżową klasyfikacją czynników. W eksperymentach tego typu każdy poziom czynnika A występuje z każdym poziomem czynnika B. Możliwe jest także takie zaplanowanie eksperymentu, gdzie poziomy jednego czynnika występują tylko z niektórymi poziomami drugiego czynnnika. W takiej sytuacji mówimy o klasyfikacji hierarchicznej.
Planowanie i analiza doświadczeń wieloczynnikowych Doświadczenie dwuczynikowe może być także zaplanowane w taki sposób, że najpierw rozmieszczmy poziomy pierwszego czynnika, a dopiero wewnątrz nich rozmieszczamy poziomy drugiego czynnika. Doświadczenia planowane zgodnie z takim schematem noszą nazwę układów zależnych (albo split-plot), a analiza wykonywana jest zgodnie z modelem: (6)
Weryfikacja założeń w analizie wariancji Metoda analizy wariancji zakłada, że analizowana cecha pochodzi z populacji o rozkładzie normalnym oraz że wariancje tej cechy są takie same we wszystkich podpopulacjach. Wymaga to weryfikacji hipotezy zerowej postaci: wobec alternatywy dla co najmniej jednej pary wskaźników i, l. Tak sformułowana hipoteza zerowa może być weryfikowana testami Bartletta, Cochrana lub Hartleya.
Weryfikacja założeń - test Bartletta Test Bartleta wykorzystuje statystykę: gdzie a jest średnim kwadratem odchyleń (wariancją w próbie) w i-tej grupie.
Test Bartletta (c.d.) Jeżeli spełnione jest założenie o normalności rozkładu i hipoteza H0 jest prawdziwa, to statystyka ma rozkład 2 z liczbą stopni swobody v = a - 1. Jeżeli więc , to H0 musimy odrzucić na korzyść hipotezy alternatywnej. Tym samym analiza wariancji nie może być wykonywana (przynajmniej bezpośrednio na danych oryginalnych). Test Bartletta może być stosowany praktycznie we wszystkich sytuacjach, jeżeli chodzi o liczbę replikacji w podklasach.
Przekształcenia danych oryginalnych W przypadku niespełnienia założenia o jednorodności wariancji można podjąć próbę jej stabilizacji poprzez np. logarytmowanie wartości próby. Działania takie noszą nazwę transformacji danych. Transormacja danych wyjściowych może być także stosowana w tych sytuacjach, gdy cecha w populacji nie ma rozkładu normalnego. Celem transformacji będzie wtedy sprowadzenie rozkładu tej cechy do co najmniej symetrycznego. Jedną z możliwych transformacji jest wykorzystanie średnich w miejsce danych oryginalnych.