170 likes | 356 Views
Elementy Rachunku Prawdopodobieństwa i Statystyki. Wykład 8 (Wnioskowanie statystyczne c. d.) Próbkowanie losowe Parametry populacji i statystyk Rozkład wartości oczekiwanych Rozkład wariancji. Tomasz Szumlak , WFiIS , 12/04/2013. Wnioskowanie statystyczne
E N D
Elementy Rachunku Prawdopodobieństwa i Statystyki • Wykład 8 (Wnioskowanie statystyczne c. d.) • Próbkowanie losowe • Parametry populacji i statystyk • Rozkład wartości oczekiwanych • Rozkład wariancji Tomasz Szumlak, WFiIS, 12/04/2013
Wnioskowanie statystyczne „Praktyczny problem” – chcemy wyciągnąć „znaczące” wnioski dotyczące własności (lub zbioru własności) pewnej (zwykle dużej) grupy/zbioru ludzi, zjawisk, przedmiotów etc. W statystyce, taką grupę/zbiór nazywamy populacją UWAGA Pojecie populacji, powinniśmy traktować ostrożnie, czasami mamy na myśli oczywiście bardziej potoczne znaczenie, np., populacja Szydłowca (badamy długość życia, zarobki etc.). Najczęściej jednak stosujemy to pojęcie bardziej ogólnie, np., populacją może być zbiór wszystkich krzeseł w danej sali wykładowej. KONIEC UWAGI Jeżeli populacja jest duża (np. trudno w praktyce zapytać każdego mieszkańca Szydłowcao zarobki…) możemy jedynie przeanalizować jej część – zwaną wówczas próbą reprezentatywną lub próbą losową Chcemy więc wyciągnąć wnioski ilościowe na temat całej populacji używając wiadomości wyznaczonych przy użyciu próby losowej – to jest podstawą wnioskowania statystycznego! Pobierania próby nazywamy próbkowaniem statystycznym – istnieje cała gałąź statystyki zajmująca się teorią próbkowania!
Wnioskowanie statystyczne Przykład 1 Fabryka „Stemp-Bolts” produkuje nity, w ciągu tygodnia populacja wyprodukowanych nitów N = 120000. Chcemy wyciągnąć wnioski na temat liczby wadliwych nitów. W tym celu pobieramy próbkę 60 nitów każdego dnia (o różnych porach, z różnych linii produkcyjnych etc.) i przekazujemy do kontroli jakości N = 120000, n = 360 Przykład 2 Badamy uczciwość monety zapisując wyniki rzutów. Wybieramy n = 60 i notujemy liczbę wyrzuconych orłów i reszek. N = , n = 60
Próbkowanie (podstawowe własności) Możemy dokonywać próbkowania używając losowań z powtórzeniami lub bez powtórzeń. W języku wnioskowania statystycznego mówimy o tym, że dany przedstawiciel populacji może być reprezentowany w próbce wiele razy lub tylko raz. Ważna konsekwencja – załóżmy, że mamy skończoną populację. Używając losowaniaz powtórzeniami możemy w zasadzie traktować ją jak populację nieskończoną – istnieje bardzo ciekawa technika wnioskowania oparta na tej zasadzie – bootstrap. Rozumiemy intuicyjnie, że jakość wyników zależy całkowicie od sposobu pobierania próby (reprezentatywność). Np., badając zarobki w Szydłowcu, możemy przeprowadzić ankietę wśród pracowników ZUS – rezultaty będą znacząco obciążone! Podstawą do wybrania dobrej (reprezentatywnej próbki) jest zapewnienie (w jak największym stopniu) tego, aby każdy element populacji miał jednakową szansę znalezienia się w próbce (możemy użyć generatora liczb losowych).
Próba reprezen. Wnioskowanie dotyczące populacji Losowanie próbki Populacja Populacja
Próba reprezen. Wnioskowanie dotyczące populacji Losowanie próbki Populacja Populacja 6
Parametry populacji Mówimy, że znamy populację, wtedy i tylko wtedy, gdy znana jest funkcja f(x) reprezentująca R.G.P. dla stowarzyszonej Z.L. X Np., interesuje nas rozkład X wysokości (wagi, itp.) studentów (N = 19000). Znajomość populacji oznacza więc, że znamy rozkład X czyli f(x)! Jeżeli, wysokość studentów posiada rozkład normalny, mówimy wówczas, że populacja charakteryzuje się rozkładem normalnym. Wiemy już, że R.G.P. posiada pewne istotne parametry, np., wartość oczekiwaną , wariancję, skośność itp. Jeżeli funkcja f(x) opisuje własności pewnej populacji to wielkości te stanowią tzw. parametry populacji. UWAGA parametry populacji, traktujemy zawsze jako (znane!) liczby stałe!
Parametry populacji • Znacznie częściej nie znamy! funkcji f(x) dla badanej populacji – w konsekwencji nie znamy żadnych parametrów populacji. • Możemy: • Założyć, że zjawisko (czytaj zmienna losowa), które badamy ma rozkład o postaci f(x) • parametryzujemy ogólną postać: f(x; , ) • losujemy próby i przeprowadzamy wnioskowanie statystyczne
Statystyki • Mówimy, że pobieramy próby losowe z populacji aby użyć ich do wyznaczenia wielkości, które służą do estymowania (również testowania hipotez – o tym później) parametrów populacji. • Wysokość studentów – pobieramy próbę o liczności n = 100 – co się dzieje? • - X – Z.L. oznaczająca wysokość studentów • - Pobieramy próbę: losujemy pierwszą osobę, dostajemy wysokość x1 • - Mamy więc, konkretną wartość dla zmiennej losowej X1 • Powtarzamy tą operację dla 2, 3, …, 50, … 100 osoby • (UWAGA! Dla N = 19000 i n = 100, losowanie ze zwracaniem i bez w zasadzie bez różnicy!) • Mamy więc próbę: (x1, x2, x3, …, x100), w naszym przypadku Z.L. Xisą niezależne (i posiadają taki sam R.G.P) mamy więc: • DEF • Każda wielkość, wyznaczona na podstawie pobranej próby, służąca do estymacji parametru populacji nazywana jest statystyką. Formalnie, statystyka wyznaczona na podstawie pobranej próby jest funkcją Z.L.
Statystyki • Statystyka, zdefiniowana jak powyżej, jest sama zmienną losową. Wartości statystyk reprezentowane są, poprzez wartości Z.L. będących elementami pobranych prób: • • Zwykle, dla każdego estymowanego parametru populacjiwyznaczamy odpowiednią statystykę na podstawie pobranej próby. Metoda wyznaczania statystyk podlega dość skomplikowanym regułom. Badamy tzw. wydajność i obciążenie danej statystyki (więcej przy omawianiu teorii estymacji). • Umowa: • parametry populacji oznaczamy literami greckimi: , 2, … • odpowiadające im statystyki oznaczamy literami z naszego alfabetu: m, s2, … • Podsumowując • Statystyka jest, w odróżnieniu od parametru populacji, Z.L. – podlega więc rozkładowi • Pobierając k prób, możemy stworzyć R.G.P. dla danej statystyki • Dla takiego rozkładu możemy wyznaczyć wartość oczekiwaną, wariancję itp..
Wartość oczekiwana dla próby Załóżmy, że pobraliśmy próbę o liczności n, wówczas dla tej próby mamy n zmiennych losowych, każda podlegająca temu samemu rozkładowi (albo inaczej – losujemy zmienne z tego samego rozkładu): Wartością średnią pobranej próby nazywamy zmienną losową jak poniżej: Jeżeli, ciąg (x1, x2, x3, …, x100) reprezentuje próbę, wówczas średnia próby wyraża się:
Rozkład wartości średnich z prób Co się dzieje? Badamy populację o rozkładzie f(x) – pobieramy próby o liczności n, wówczas naturalnie dochodzimy do pojęcia rozkładu prob. dla statystyki W tym przypadku prawdziwe są poniższe twierdzenia: T1: Wartość oczekiwana rozkładu wartości średnich z prób wyraża się jak poniżej: Innymi słowy – wartość oczekiwana dla średniej z próby równa jest wartości oczekiwanej badanej populacji T2: Jeżeli badana populacja jest nieskończona, (lub w przypadku skończonej losujemy ze zwracaniem) to wariancja rozkładu wartości oczekiwanych z prób wyraża się:
Rozkład wartości średnich z prób Co się dzieje? Badamy populację o rozkładzie f(x) – pobieramy próby o liczności n, wówczas naturalnie dochodzimy do pojęcia rozkładu prob. dla statystyki W tym przypadku prawdziwe są poniższe twierdzenia: T1: Wartość oczekiwana rozkładu wartości średnich z prób wyraża się jak poniżej: Innymi słowy – wartość oczekiwana dla średniej z próby równa jest wartości oczekiwanej badanej populacji T2: Jeżeli badana populacja jest nieskończona, (lub w przypadku skończonej losujemy ze zwracaniem) to wariancja rozkładu wartości oczekiwanych z prób wyraża się: Parametr populacji Parametr populacji
Rozkład wartości średnich z prób T3: Jeżeli populacja, z której pobieramy próby, podlega rozkładowi normalnemu o średniej oraz wariancji , wówczas wartość średnia z próby podlega rozkładowi normalnemu o tej samej średniej i wariancji /n T4 (bardzo istotne): Załóżmy, że rozpatrujemy pewien R.G.P. (dowolny), dla którego istnieją: wartość oczekiwana oraz wariancja . Standardowa Z.L. związana z wartością średniąz próby, ma postać: i podlega w granicy, rozkładowi normalnemu: Zakładamy, że populacja ta jest nieskończona 2 2
Rozkład wartości średnich z prób T4 jest konsekwencją Centralnego Twierdzenia Granicznego (tw. jest stosunkowo prosto sformułowane ale dowód jest niezwykle skomplikowany…) CTG Załóżmy, że (x1, x2, x3, …, xn) reprezentuje próbę losową pochodzącą z pewnego rozkładu o skończonej wartości oczekiwanej oraz wariancji (, 2). Jeżeli liczność pobranej próby dąży do nieskończoności: n , to wówczas rozkład sumy: dąży do rozkładu: Stąd używając T3 dostajemy T4
Pokażmy, że T1 oraz T2 są prawdziwe: Dla średniej z prób: Dla wariancji: