520 likes | 1.53k Views
Biostatystyka. inż. Jacek Jamiołkowski. Wykład 2. Statystyka opisowa. Klasyfikacja parametrów statystycznych. Statystyka opisowa. Parametry statystyczne.
E N D
Biostatystyka inż. Jacek Jamiołkowski Wykład 2 Statystyka opisowa
Klasyfikacja parametrów statystycznych Statystyka opisowa
Parametry statystyczne • Analiza danych powinna doprowadzić do zwięzłego przedstawienia wyników badań za pomocą charakterystyk liczbowych zwanych parametrami statystycznymi. • Parametry statystyczne to wielkości liczbowe służące do syntetycznego opisu struktury zbiorowości statystycznej. • Stosowane parametry dzieli się na: • miary położenia • miary zmienności (miary rozproszenia, dyspersji) • miary asymetrii • miary koncentracji
Miary położenia Statystyka opisowa
Miary położenia Miary położenia opisują umiejscowienie typowych wartości cechy statystycznej na osi liczbowej.
Miary położenia średnia arytmetyczna klasyczne średnia harmoniczna średnia geometryczna miary położenia modalna kwartyl pierwszy pozycyjne mediana kwantyle kwartyl trzeci centyle
Miary położenia • Miary klasyczne, to miary, których wartość jest wyznaczona w oparciu o wszystkie obserwacje. • Miary pozycyjne, to miary, na których wartość wpływają tylko wybrane obserwacje z próby uporządkowanej. • Poszczególne rodzaje średnich są obliczane na podstawie wszystkich wartości przyjmowanych przez cechę w badanej zbiorowości. • Dla każdego konkretnego przypadku powinno się obliczać tylko jedną średnią, bo tylko jedna z nich jest odpowiednia dla danej cechy statystycznej, a pozostałe nie mają sensu. • Wartość modalna, jest tym wariantem cechy statystycznej, który był najczęściej obserwowany. • Kwantyle to takie warianty cechy statystycznej, które dzielą badaną zbiorowość na części w określonych proporcjach, np. na połowy (mediana). • Wśród miar położenia można wyróżnić miary przeciętne lub inaczej miary tendencji centralnej wskazujące średni lub typowy poziom cechy, które mówią o przeciętnym poziomie badanej cechy (średnie, modalna, mediana).
Średnia arytmetyczna • Średnia arytmetyczna jest najczęściej wykorzystywaną miarą spośród klasycznych miar położenia. Inne średnie wykorzystywane są zdecydowanie rzadziej. Jest stosunkowo prosta do obliczenia. Jej wadą (wynikającą z tego, że w jej wyznaczaniu uwzględniane są wszystkie pomiary) jest wrażliwość na przypadki odstające. Przypadki odstające to pomiary, których wartość zdecydowanie odbiega od większości pozostałych. Zwykle są wynikiem błędów, np. błędów przy zapisywaniu przecinka (wzrost osoby 1,76 cm zamiast 176 cm). • Średnią arytmetyczną wyznacza się ze wzoru:
Średnia arytmetyczna • Przykład: • Dwóch lekarzy bada pacjentów. Przeprowadzono obserwację czasu trwania tych badań w minutach. Zanotowano następujące wyniki: • Dla lekarza A: 12, 15, 15, 18, 20 • Dla lekarza B: 10, 10, 12, 12, 15, 15, 18, 20, 21, 21 • Korzystając ze wzoru uzyskujemy:
Średnia harmoniczna • Średnia harmoniczna jest stosowana zdecydowanie rzadziej niż arytmetyczna. Konieczność jej użycia zachodzi, gdy wartości cechy statystycznej podawane są w przeliczeniu na stałą jednostkę innej zmiennej, np. prędkość w km/h, gęstość zaludnienia w osobach/km2, spożycie w kg/osobę, itp. • Średnią harmoniczną można wyznaczyć ze wzoru:
Średnia harmoniczna • Przykład: • W ciągu 8 godzin pracy w przychodni obserwowano pracę trzech pielęgniarek. Na wykonanie obowiązków związanych z jednym pacjentem pielęgniarka A potrzebowała 4 min pielęgniarka B – 6 min, a pielęgniarka C – 12 min. Jaki jest średni czas zużywany na jednego pacjenta? (proszę zwrócić uwagę na rzeczywistą jednostkę badanej cechy: min/osobę!!!)
Średnia harmoniczna • Gdyby w omawianym przykładzie zastosować średnią arytmetyczną uzyskalibyśmy inny wynik: Jest to wynik nieprawidłowy, bo przy takim tempie pracy, trzy pielęgniarki w ciągu 8 godzin (480 minut) obsłużyłyby 3×480÷7,333 min=196 osób. W rzeczywistości jednak, pielęgniarka A mogłaby zająć się 480÷4=120 pacjentami, pielęgniarka B - 480÷6=80, a pielęgniarka C - 480÷12=40, co daje łącznie 120+80+40=240 pacjentów.
Średnia geometryczna • Średnią geometryczną stosuje się przy badaniu średniego tempa zmian zjawisk, tzn. w sytuacji, gdy zjawiska są ujmowane w sposób dynamiczny. • Średnią geometryczną wyznacza się korzystając ze wzoru:
Średnia geometryczna • Przykład: • W ciągu trzech kolejnych lat liczba osób nowozakażonych wirusem HIV wynosiła odpowiednio: 500, 750, 825. Jaki był średni względny przyrost liczby nowych zakażeń? • Wartości cechy statystycznej w tym zadaniu to przyrosty liczby zakażeń w kolejnych latach, tzn.: Zgodnie ze wzorem, średni przyrost, to:
Średnia geometryczna • Gdyby w tym przykładzie zastosować średnią arytmetyczną uzyskalibyśmy wynik: (1,5+1,1)÷2=1,3. Wynikałoby z tego, że w 3 roku, powinno być 500×1,3×1,3=845 osób nowozakażonych.
Modalna Wartość modalna, określana także jako dominanta, moda lub wartość najczęstsza, to wartość cechy statystycznej, która w danym rozkładzie empirycznym występuje najczęściej, a zatem jest to maksimum funkcji rozkładu empirycznego cechy statystycznej. Mo
Modalna • Przykład: • Wykorzystując dane z przykładu dla średniej arytmetycznej (czasy badania pacjentów): • Dla lekarza A: 12, 15, 15, 18, 20 • Dla lekarza B: 10, 10, 12, 12, 15, 15, 18, 20, 21, 21 • W przypadku lekarza A wartością modalną jest czas 15 minut. W przypadku lekarza B nie możemy określić wartości modalnej, ponieważ żadna z wartości cechy nie przyjęła pozycji dominującej (cztery wartości cechy powtarzały się dwukrotnie). • Jeśli przyjmiemy, że próbę stanowiły łączne wyniki pracy obu lekarzy, to modalną jest wartość 15 (występująca w tym przypadku 4 razy): • Mo=15 min
Modalna • Wartość modalna, jako miara pozycyjna, jest odporna na występowanie przypadków odstających. Jeśli przykładowo następujące dane (czas pobytu pacjenta w szpitalu w dniach): • 6, 7, 8, 8, 9, 11, 11, 11, 14, 14, 15, 16, 117 • To średni czas pobytu wyniósłby (6+7+8+8+9+11+11+11+14+14+15+16+117)÷13=19 dni • Pomimo, że hospitalizacje nie były dłuższe niż 16 dni (poza jednym pacjentem, który z jakiejś przyczyny był leczony bardzo długo), wartość średniej arytmetycznej jest stosunkowo wysoka. Jest ona silnie zawyżana przez jeden przypadek odstający. Gdyby jednak do opisania typowego czasu hospitalizacji użyć wartości modalnej, uzyskamy wynik 11 dni, który jest zbliżony do czasy hospitalizacji prawie wszystkich pacjentów (poza jednym przypadkiem odstającym).
Kwantyle • Kwantyle definiuje się jako wartości cechy badanej populacji, przedstawionej w postaci szeregu statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek. Części te pozostają do siebie w określonych proporcjach. • Kwartyl pierwszy (Q1) dzieli zbiorowość na dwie części tak, że 25% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu, a 75% równe bądź wyższe. • Mediana (Me, kwartyl drugi) dzieli zbiorowość na dwie równe części; połowa jednostek ma wartości cechy mniejsze bądź równe medianie, a połowa wartości cechy równe lub większe od Me. W szeregu szczegółowym medianą jest wartość znajdująca się w jego środku, stąd mediana jest nazywana wartością środkową. • Kwartyl trzeci (Q3) dzieli zbiorowość na dwie części tak, że 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi trzeciemu, a 25% równe bądź wyższe.
Mediana • Medianę wyznacza się ze wzoru: gdy n jest nieparzyste gdy n jest parzyste (mediana jest średnią dwu środkowych elementów szeregu) Przykład: Dane czasów hospitalizacji pacjentów: 6, 7, 8, 8, 9, 11, 11, 11, 14, 14, 15, 16, 117 Ponieważ szereg liczy 13 elementów, to zgodnie ze wzorem, środkowym jest element (13+1)÷2=7 w szeregu uporządkowanych wartości, czyli 11. Łatwo udowodnić, że także mediana jest niewrażliwa na przypadki odstające. Obok średniej arytmetycznej, mediana jest najczęściej stosowanym parametrem statystycznym.
Kwartyle • Kwartyle wyznacza się w sposób analogiczny do mediany. Wyznaczając medianę, dzielimy badany szereg na dwie połowy. Wyznaczenie kwartyla pierwszego sprowadza się do znalezienia mediany w połowie zawierającej jednostki mniejsze od mediany, a wyznaczenie kwartyla trzeciego to znalezienie mediany w połowie zawierającej jednostki większe od mediany. • Opierając się na poprzednim przykładzie, kwartylem pierwszym będzie mediana szeregu: 6, 7, 8, 8, 9, 11, 11, czyli 8, natomiast kwartylem trzecim będzie mediana szeregu 11, 11, 14, 14, 15, 16, 117, czyli 14. • Podsumowując, dla przytoczonego przykładu: • Q1=8, Me=11, Q1=14
Centyle • Centyle stosowane są dla prób o dużej liczebności. Wskazują jaki procent jednostek w próbie uzyskał wynik mniejszy od danego. Tym samym centyl 50 odpowiada medianie, a centyle 25 i 75 to odpowiednio pierwszy i trzeci kwartyl. • Centyle są często stosowane do odnoszenie różnych pomiarów antropometrycznych u badanego dziecka do ogółu populacji dzieci. Służą do tego siatki centylowe. Są to wykresy kilku wybranych centyli (zwykle 3, 10, 25, 50, 75, 90 i 97) w zależności od wieku dla wybranego parametru antropometrycznego (np. wagi, wzrostu, obwodu głowy, itp.).
Centyle Siatka centylowa wzrostu u chłopców Przykład: Ocenić wzrost 13 letniego chłopca, mierzącego 170 cm. Ponieważ dla populacji 13-letnich chłopców, wzrost 170 cm jest 90-tym centylem, zatem w tej grupie wiekowej 90% chłopców jest niższych niż 170 cm, a 10% ma wzrost wyższy od 170 cm.
Miary zmienności Statystyka opisowa
Miary zmienności Miary zmienności (rozproszenia, dyspersji) opisują rozrzut wartości cechy statystycznej w populacji wokół wartości przeciętnej. Charakteryzują stopień zróżnicowania jednostek zbiorowości pod względem badanej cechy.
Miary zmienności wariancja odchylenie standardowe klasyczne odchylenie przeciętne współczynnik zmienności miary zmienności rozstęp odchylenie ćwartkowe pozycyjne współczynnik zmienności Miary klasyczne, to miary, których wartość jest wyznaczona w oparciu o wszystkie obserwacje. Miary pozycyjne, to miary, na których wartość wpływają tylko wybrane obserwacje z próby uporządkowanej.
Wariancja • Wariancja jest średnią arytmetyczną kwadratów odchyleń poszczególnych obserwacji od średniej arytmetycznej zbiorowości: Ważną cechą wariancji jest to, że nie jest wyrażona w jednostkach cechy, ale w jednostkach podniesionych do kwadratu, np. wariancja dla wzrostu może mieć jednostkę cm2
Odchylenie standardowe • Aby uzyskać miarę zmienności o jednostce zgodnej z mianem badanej cechy statystycznej, można posłużyć się odchyleniem standardowym, które jest pierwiastkiem kwadratowym wariancji: Odchylenie standardowe określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej. Odchylenie standardowe bywa także oznaczane symbolem SD.
Odchylenie standardowe • Znając średnią arytmetyczną i odchylenie standardowe próby, można określić typowy obszar zmienności: W tym obszarze mieszczą się wartości cechy 68% wszystkich jednostek badanej zbiorowości statycznej.
68% 95% 99,7% Odchylenie standardowe Poza przedział +/- jednego odchylenia standardowego od średniej wykracza około 32% obserwacji. Poza przedział +/- dwóch odchyleń standardowych od średniej wykracza tylko około 5% obserwacji. Prawdopodobieństwo, wystąpienia obserwacji spoza przedziału +/- trzech odchyleń standardowych od średniej jest znikome i wynosi ok. 0,3%.
Odchylenie przeciętne • Odchylenie przeciętne (d) jest średnią arytmetyczną bezwzględnych odchyleń wartości cechy od jej średniej arytmetycznej. Odchylenie przeciętne jest miarą rzadziej stosowaną w analizach statystycznych niż odchylenie standardowe, mimo że jego interpretacja jest podobna. Odchylenie przeciętne jest zawsze mniejsze od odchylenia standardowego, policzonych dla tego samego szeregu: d < s
Wariancja, odchylenie standardowe i przeciętne • Przykład: • Czasy badania pacjentów przez dwóch lekarzy w minutach były następujące: • Dla lekarza A: 12, 15, 15, 18, 20 • Dla lekarza B: 10, 10, 12, 12, 15, 15, 18, 20, 21, 21 • Obliczone wcześniej średnie arytmetyczne wynoszą odpowiednio 16 min i 15,4 min dla lekarza A i B. • Wariancja czasu badania lekarza A wynosi:
Wariancja, odchylenie standardowe i przeciętne • Dla lekarza A średni czas badania wynosi 16 min, a przeciętne zróżnicowanie ±2,76 min, natomiast dla lekarza B 15,4±4,15 min. • Typowy obszar zmienności wynosi: • dla lekarza A – (13,24 min; 18,76 min) • dla lekarza B – (11,25 min; 19,55 min) • Odchylenie przeciętne dla lekarza A jest następujące:
Rozstęp • Rozstęp jest najprostszą miarą zmienności. Definiuje się go jako różnicę między najwyższą i najniższą zaobserwowaną wartością cechy statystycznej: • R = xmax – xmin • Rozstęp opisuje empiryczny obszar zmienności badanej cechy, nie daje jednak informacji o zróżnicowaniu poszczególnych wartości cechy w całej zbiorowości. Jest miarą pozycyjną. • Np. dla przytoczonego wcześniej przykładu czasu badania dwu lekarzy: • RA= 20 – 12 = 8 min • RB= 21 – 10 = 11 min • Łatwo zauważyć że wartość rozstępu, zależy od tego jak bardzo skrajny przypadek trafi się w próbie, czyli od jednostkowych przypadków ekstremalnych, a nie od zróżnicowania typowych obserwacji przeważających w zbiorowości.
Odchylenie ćwiartkowe • Tak jak odchylenie standardowe jest najczęściej stosowane do opisania odchylenia wartości cechy od średniej arytmetycznej, tak odchylenie ćwiartkowe jest miarą zmienności najczęściej używaną w parze z medianą. Odchylenie ćwiartkowe (Q) jest połową różnicy między trzecim, a pierwszym kwartylem: Odchylenie ćwiartkowe mierzy poziom zróżnicowania tylko części jednostek, pozostałej po odrzuceniu 25% jednostek o wartościach najmniejszych i 25% jednostek o wartościach największych. Kwartyli można użyć również do wyznaczenia typowego obszaru zmienności: (Q1 < xtyp < Q3) do którego należy 50% obserwacji.
Odchylenie ćwiartkowe • W przykładzie dotyczącym czasów badania pacjentów przez lekarzy A i B, wartości kwartyli są następujące: • Q1A = 15, Q3A = 18 • Q1B = 12, Q1B = 20 • zatem: • QA = (18-15)÷2=1,5 min • QB = (20-12)÷2=4 min
Współczynniki zmienności • Współczynnik zmienności jest ilorazem bezwzględnej miary zmienności cechy i średniej wartości tej cechy. W konstrukcji współczynnika zmienności można użyć zarówno miar klasycznych, jak i pozycyjnych. • Współczynnik zmienności stosuje się zwykle, gdy chcemy ocenić zróżnicowanie kilku zbiorowości pod względem tej samej cechy, ewentualnie tej samej zbiorowości pod względem kilku cech. • Współczynnik zmienności jest wielkością niemianowaną. Wartości współczynników podaje się z reguły w procentach. Przyjmuje się, że jeżeli współczynnik zmienności jest mniejszy niż 10%, to zróżnicowanie cechy jest statystycznie nieistotne. Duże wartości współczynnika zmienności świadczą o zróżnicowaniu, a więc niejednorodności zbiorowości.
Współczynniki zmienności • Klasyczne współczynniki zmienności: oraz gdzie W przykładzie dotyczącym czasów badania pacjentów przez lekarzy A i B, wartości średnich i odchyleń są następujące: zatem odpowiednie współczynniki zmienności są następujące:
Współczynniki zmienności • Pozycyjne współczynniki zmienności: gdzie oraz W przykładzie dotyczącym czasów badania pacjentów przez lekarzy A i B, wartości kwartyli są następujące: MeA = 15, Q1A = 15, Q3A = 18, QA = 1,5 MeB = 15, Q1B = 12, Q1B = 20, QB = 4 zatem odpowiednie współczynniki zmienności są następujące:
Miary asymetrii Statystyka opisowa
Miary asymetrii • Często zdarza się, że porównanie średniego poziomu cechy i jej rozproszenia nie wykazuje różnic między badanymi zbiorowościami, a jednak obserwacja rozkładów empirycznych wyklucza podobieństwo struktury. • Rozważmy następujący przykład: w trzech szpitalach wylosowano po 20 pracowników w celu określenia ich zarobków. Uzyskano następujące wyniki: • Szpital A - 750, 750, 1250, 1250, 1250, 1250, 1750, 1750, 1750, 1750, 1750, 1750, 1750, 1750, 2250, 2250, 2250, 2250, 2750, 2750 • Szpital B - 750, 1250, 1250, 1250, 1250, 1250, 1250, 1250, 1750, 1750, 1750, 1750, 1750, 2250, 2250, 2250, 2250, 2250, 2750, 2750 • Szpital C - 750, 750, 1250, 1250, 1250, 1250, 1250, 1750, 1750, 1750, 1750, 1750, 2250, 2250, 2250, 2250, 2250, 2250, 2250, 2750
Miary asymetrii Gdyby obliczyć średnie arytmetyczne i odchylenia standardowe, w każdym szpitalu uzyskamy 1750±562 zł. Przedstawienie rozkładów empirycznych zarobków w tych 3 szpitalach w postaci histogramów pozwala zaobserwować różnice: rozkład asymetryczny prawostronnie rozkład asymetryczny lewostronnie rozkład symetryczny
Miary asymetrii • Asymetrię można ocenić porównując różnice pomiędzy średnią arytmetyczną, a medianą lub modalną. • W przypadku asymetrii prawostronnej spełniona jest nierówność: Natomiast w przypadku asymetrii lewostronnej spełniona jest nierówność: Można to wyrazić za pomocą wskaźnika skośności, który przyjmuje wartość 0 przy braku asymetrii, wartości dodatnieprzy asymetrii prawostronnej, a wartości ujemne przy asymetrii lewostronnej (przy użyciu miar klasycznych i pozycyjnych): lub
Miary asymetrii • Im większa wartość bezwzględna wskaźnika skośności, tym silniejsza asymetria. • Można użyć także klasycznego współczynnika asymetrii, wyrażonego wzorem: Obliczenie tego współczynnika jest stosunkowo czasochłonne, dlatego praktyczniej jest oceniać asymetrię rozkładu korzystając z miar pozycyjnych (wskaźnik asymetrii)