160 likes | 572 Views
ANALIZA WSPÓŁZALEŻNOŚCI CECH JAKOŚCIOWYCH.
E N D
ANALIZA WSPÓŁZALEŻNOŚCI CECH JAKOŚCIOWYCH W wielu badaniach gromadzimy dane będące liczebnościami. Na przykład możemy klasyfikować chorych w badanej próbie do różnych kategorii pod względem wieku, płci czy natężenia choroby, czyli kilku badanych cech. Możemy je przedstawić w postaci tzw. tabeli wielodzielczej.
Tabele wielodzielcze (kontyngencji). • Pierwszym krokiem jest przedstawienie zebranych danych indywidualnych w postaci tabeli wielodzielczej (kontyngencji). Wymaga to zliczenia jednostek w odpowiednich komórkach tabeli.Zliczanie to bez użycia komputera jest żmudne, zwłaszcza dla dużej liczby przypadków. • Tabele wielodzielcze stanowią podstawę do obliczania pozostałych statystyk określających siłę związku. Tabela wielodzielcza przedstawia rozkład obserwacji ze względu na kilka cech jednocześnie.Załóżmy, że dysponujemy n obserwacjami dla jakościowej cechy X (posiadającej kategorie X1, X2, ... Xk) i jakościowej cechy Y (o kategoriach Y1, Y2, ...Yp) (tab. 1). Liczebności nij określają liczbę elementów próby, dla których cecha X ma wariant Xi i jednocześnie cecha Y - wariant Yj. Tablica wielodzielcza pokazuje więc określony łączny rozkład obu cech. Liczebności w ostatnim wierszu i w ostatniej kolumnie nazywamy empirycznymi, odpowiednio cechy Y i cechy X. Na przykład, chcąc ocenić wpływ używek (papieros, kawa, alkohol) na pewną chorobę, zebraliśmy dane na temat ich używania w grupie 90-osobowej. Zastosowano podział na 4 kategorie: nigdy (tzn. nie używano nigdy), niewiele (używano w małych ilościach), średnio (używano w średnich ilościach) i dużo (używano w dużych ilościach).
Zliczając otrzymane dane dla papierosów i płci, otrzymamy następującą tabelę wielodzielczą (tab. 3)
Tabela 3 Widać wyraźną przewagęmężczyzn w grupie palących dużą lub średnią liczbę papierosów, natomiast około 3-krotnie więcej kobiet niż mężczyzn nigdy nie paliło. Informacje byłyby bogatsze po dołączeniu danych odsetkowych. Odsetki wylicza się względem: ostatniej rubryki (płci), ostatniego wiersza (liczby wypalanych papierosów) oraz całkowitej liczby respondentów. Następny etap analizy statystycznej tak zebranych danych to próba weryfikacji hipotezy, że dwie jakościowe cechy w populacji są niezależne.
Najczęściej stosowanym narzędziem jest test chi-kwadrat.Został on opracowany przez Karla Pearsona w 1900 roku i jest metodą, dzięki której można się upewnić, czy dane zawarte w tabeli wielodzielczej dostarczają wystarczającego dowodu na związek tych dwóch zmiennych. Test chi-kwadrat polega na porównaniu liczebności zaobserwowanych z oczekiwanymi przy założeniu hipotezy o braku związku między tymi dwiema zmiennymi. Liczebności (częstości) oczekiwane obliczamy, wykorzystując liczebności brzegowe(z tablicy wielodzielczej) według następującego wzoru: Wówczas hipotezę o tym, że cechy X i Y są niezależne, możemy zweryfikować testem według następującego schematu:
Weryfikacja hipotezy zerowej: H0: cechy X i Y są niezależne Wobec hipotezy alternatywnej: H1: cechy X i Y są zależne Do weryfikacji hipotezy stosujemy statystykę: Otrzymaną wartość należy porównać z wartością krytyczną chi-kwadrat o (k - 1)·(p - 1) stopniach swobody
Na przykład: zapytano 260 osób o to, czy korzystają z bezpłatnych darmowych badań profilaktycznych dowolnego typu. Zebrane dane przedstawiono w wielodzielczej tabeli 4. Czy istnieje zależność między korzystaniem z takiej oferty i miejscem zamieszkania? Tabela 4
Wyliczymy liczebności oczekiwane.Wyniki obliczeń pozostałych liczebności oczekiwanych przedstawiono w tabeli w nawiasach obok wartości obserwowanych. A jak się to liczy? Mnożymy sumę z wiersza i sumę z kolumny (patrzymy po brzegach), następnie dzielimy przez liczbę wszystkich elementów (tu 260).
Następny krok to porównanie liczebności empirycznych i teoretycznych, a końcowym efektem jest obliczona wartość statystyki chi-kwadrat. A jak się to liczy? We wnętrzu tabeli: liczebność empiryczna minus teoretyczna, podnosimy do kwadratu, dzielimy przez teoretyczną.
Tak więc wartość obliczona chi-kwadrat = 12,25 Wartość odczytana wynosi (dla poziomu istotności 0,05 i (3–1)*(2–1)) stopni swobody = 5,991 Wartość obliczona > wartość krytyczna (odczytana) 12,25 > 5,991 W takiej sytuacji formułujemy wniosek końcowy: Istnieje zależność między miejscem zamieszkania a częstotliwością korzystania z badań profilaktycznych. A teraz szukamy największych rozbieżności między liczebnościami empirycznymi i teoretycznymi, np.:
Zauważmy, że mieszkańcy wsi częściej przyznawali, ze nigdy nie korzystali z badań profilaktycznych (63 wobec 50,71). Mieszkańcy miast w większym stopniu niż można się było spodziewać przyznawali, że często korzystają z badań profilaktycznych (40 wobec 30,46). Zauważmy, że bardzo duże wartości chi-kwadrat obliczonego oznaczają dużą różnicę pomiędzy częstościami obserwowanymi a oczekiwanymi. Są one dowodem istnienia zależności. Przeciwnie mała wartość (zwłaszcza bliska 0) nie daje dowodu na istnienie korelacji.