350 likes | 604 Views
Estymacja parametrów statystycznych – podstawowe pojęcia. Estymacja – po co i dlaczego?.
E N D
Estymacja – po co i dlaczego? • Jeśli jesteśmy w stanie zebrać wszystkie informacje na temat interesującej nas zbiorowości wówczas do pełnego opisu wystarczą nam metody statystyki opisowej. W wielu jednak sytuacjach mówiąc o zbiorowości opieramy się na danych pochodzących z próby. Aby prawidłowo uogólniać wyniki z próby na populację generalną należy stosować metody statystyki indukcyjnej.
Estymacja – po co i dlaczego? • Procedur uogólniania wyników z próby losowej na zbiorowość dostarcza dział wnioskowania statystycznego. • Wnioskowanie przybiera postać: • estymacji parametrów statystycznych czyli szacowania nieznanych wartości parametrów np. średniej arytmetycznej w zbiorowości generalnej, odchylenia standardowego. • testowania hipotez, które z kolei dotyczy weryfikacji przypuszczeń odnośnie określonego poziomu zmiennej losowej lub kształtu rozkładu w populacji generalnej.
Estymacja – po co i dlaczego? • W każdym przypadku mamy do czynienia z ryzykiem błędu statystycznego ale dzięki wnioskowaniu ryzyko jego popełnienia może być kontrolowane przez badacza. • Na podstawie danych uzyskanych z próby losowej obliczamy statystyki z próby, które są estymatorami parametrów populacji generalnej stąd estymacja.
Estymator – szacowany parametr • Estymator – wielkość (charakterystyka, miara), obliczona na podstawie próby, służąca do oceny wartości nieznanych parametrów populacji generalnej.
Estymator – cechy: • Dobór właściwej statystyki, będącej najlepszym estymatorem parametru w populacji generalnej dokonuje się na podstawie właściwości estymatorów (nieobciążony, zgodny, efektywny, dostateczny). • Estymatory minimalizują błąd pojawiający się w badaniach częściowych
Estymator nieobciążony • Estymator nieobciążony to ten, którego przeciętna wartość jest dokładnie równa wartości szacowanego parametru. Innymi słowy, przy wielokrotnym losowaniu próby średnia z wartości przyjmowanych przez estymator nieobciążony jest równa wartości szacowanego parametru. Obciążoność oznacza, że oszacowania dostarczone przez taki estymator są obarczone błędem systematycznym
Estymator - efektywność • Estymator jest tym efektywniejszy, im mniejsza jest jego wariancja i odchylenie standardowe.
Estymator - zgodność • Zgodność oznacza, że wartość estymatora zgodnego będzie bliska paramereu z populacji, będzie wzrastać wraz ze wzrostem proby
Estymator - dostateczny • Estymator dostateczny zawierać będzie wszystkie informacje o szacowanym parametrze, jakie występują w próbie.
Założenia estymacji czyli kiedy ma zastosowanie? • W praktyce jesteśmy zmuszeni do szacowania wartości parametrów wyłącznie na podstawie statystyk otrzymanych z próby – są one wystarczające, gdyż z godnie z centralnym twierdzeniem granicznym rozkład z próby zbliża się do rozkładu normalnego, bez względu ma kształt populacji.
Założenia estymacji czyli kiedy ma zastosowanie? • Choć konkretne wartości z próby losowej różnią się od prawdziwych wartości odpowiadających im parametrów w populacji generalnej to stosując metody estymacji przedziałowej można odpowiedzieć na pytanie w jakim marginesie błędu poruszamy się, jak duży jest przedział liczbowy, który z przyjętym prawdopodobieństwem pokryje „nieznaną” wartość parametru.
…wróć – rozkład normalny to znaczy? • W statystycznym wnioskowaniu o parametrach i rozkładach w populacjach generalnych na podstawie wyników badań prób losowych popełniane są błędy przypadkowe, których rozkład jest normalny lub granicznie normalny. Zawiera się w tym merytoryczny sens statystycznej indukcji, czyli wnioskowania. Na podstawie tej prawidłowości, skonstruowane zostały wszystkie metody estymacji parametrów oraz metody weryfikacji hipotez
…wróć – rozkład normalny to znaczy? • Rozkład normalny jest rozkładem częstości, którego obraz przypomina kształtem dzwon, krzywa taka posiada 3 zasadnicze cechy: • Jest jednomodalna • Jest symetryczna • Jej końce zbliżają się asomptotycznie do osi wartości – wykres funkcji dla wartości dążących do plus nieskończoności będzie zbliżać się do osi odciętych ale nigdy ich nie przetnie, ba nawet nie dotknie
Rozkład nie - normalny? • Rozkład normalny swoją nazwę zawdzięcza temu, że jest to typ rozkładu częstości, który jest charakterystyczny dla szeregu wskaźników społecznych w populacji ludzkiej: wzrost, waga, współczynnik inteligencji. Nie oznacza że inne typy rozkładów częstości są nienormalne
Założenia estymacji – tablice statystyczne • Stosując metody estymacji korzystamy z właściwości rozkładu normalnego, który jest stablicowany, tak że przy określonych wartościach zmiennej standaryzowanej Z odczytujemy wartości konkretnych prawdopodobieństw np. wiemy, że w odległości jednego odchylenia standardowego od wartości oczekiwanej znajduje się ponad 68% obserwacji natomiast w odległości dwóch odchyleń standardowych znajduje się ponad 95% obserwacji
Skąd to wiemy? – z tablic statystycznych!!! Wartość zmiennej Z odczytujemy z wartości w pierwszym wierszu i kolumnie np. 0,95 to 0,9 + 0,05 przecięcie tych dwóch wartości w środku tabeli daje wynik prawdopodobieństwa. Spójrzmy na wartość Z dla 1,00 równa się ona 0,34135 (prawdopodobieństwo), jest to tablica rozkładów jednostronnych dlatego mnożymy razy 2 co równa się 0,6827 stąd ponad 68%, możemy to przedstawić za pomocą wykresu:
Estymacja - pojęcia • Korzystając z tablic rozkładu normalnego łatwo nam odczytać prawdopodobieństwo z którym interesująca nas wartość parametru np. średniej arytmetycznej znajdzie się w granicach pewnego przedziału liczbowego. Przedział ten to przedział ufności, który pokrywa nam nieznaną wartość interesującego nas parametru. Prawdopodobieństwo o którym mowa to z kolei współczynnik ufności i wynosi p= 1-α, gdzie α to określone przez badacza małe prawdopodobieństwo niepokrycia szacowanego parametru wyznaczonym przedziałem liczbowym.
Możemy też powiedzieć, że z prawdopodobieństwem 1-α wartość szukanego parametru Z znajdzie się w przedziale –Z (α/2) do Z (α/2).
Estymacja - pojęcia • Współczynniki ufności są odpowiednikami poziomów istotności czyli α dla testu dwustronnego Powyższe rozważania są trafne jeśli znamy odchylenie standardowe z populacji Gdy nie znamy posługujemy się estymatorem odchylenia standardowego z próby – stąd rozkład przybiera postać rozkładu t – Studenta (o czym szerzej na kolejnych slajdach)
Przykład Zosi i Jasia • Zosia wypełniając test inteligencji uzyskała wynik 115 punktów Jaś 80. To dużo czy mało jeśli średnia równa się 100 (na skali 0 – 200) a odchylenie standardowe równa się 10? • Ile osób prawdopodobnie będzie lepszych a ile gorszych od Jasia i Zosi?
Założenia • Pole pod krzywą to 100% co w wymiarze bezwzględnym stanowi 1,0. Pole pod krzywą wynosi więc 1, rozkład jest symetryczny więc pole po lewej stronie od średniej to 0,5 i po prawej 0,5. Prawdopodobieństwo wylosowania osoby poniżej i powyżej średniej jest takie samo. Zosia uzyskał wynik lepszy od średniej a więc jej odpowiada pole po prawej stronie średniej Jasiowi po lewej.
Działania • Proporcji osób które prawdopodobnie lepiej zalicza test od Zosi odpowiada pole pod krzywą normalną na prawo od średniej. • Zacznijmy od policzenia różnicy pomiędzy wynikiem Zosi a średnią: • X - µ = 115 – 100 = 15, tę różnicę dzielimy przez odchylenie standardowe 15/10 = 1,5 zgodność z formułą standaryzacji – wynik ten oznacza, że IQ Zosi znajduje się w odległości 1,5 odchylenia standardowego od średniej
Otwieramy tablice • Szukamy z = 1,5 = 0,43319 = 0,4332 (to pole jakie jest pod krzywą od średniej do punktu 1,5, i od średniej do – 1,5 ) • 0,4332*2=0,8664 • 1 – 0,8664 = 0,1336 • 0,1336/2= 0,0668 (to pole od punktu 1,5 do plus nieskończoności i od –1,5 do minus nieskończoności)
Odpowiedź: • Wobec powyższego 6,68% będzie miało prawdopodobnie lepszy wynik od Zosi gorszy zaś 93,32% Zosia jest mądra Jaś nie zobaczmy: 80-100/10=-2,0 (- oznacza że wartość Jasia jest po lewej stronie od średniej) Wartość Z = 0,4772 * 2 = 0,9544 • 1 – 0,9544 = 0,0456/2 = 0,0228 Jaś będzie lepszy tylko od niewiele ponad 2 % osób.
Jak korzystać z tablic statystycznych? • Jak odczytać Z dla współczynnika ufności równego 1-α = 0,95? Jeśli korzystamy z tabeli standardowego rozkładu Z to wygląda to następująco: • Z tablicy standaryzowanego rozkładu normalnego wiemy, że Z przyjmuje wartość z przedziału od 0 do Z aby uwzględnić przedział od –Z do 0 musimy 0,95/2 = 0, 4750 i takiego prawdopodobieństwa szukamy wewnątrz tabeli odczytujemy odpowiadające jej wartości Z 1,9 + 0,06 + 1,96 a więc przedział który nas interesuje wynosi od -1,96 do 1,96. To przedział w którym z 0,95 prawdopodobieństwem mieści się szukany parametr.
Estymacja dla n<30 • Rozkład t Studenta (pseudonim Gosseta, który wprowadził tą statystykę) w odróżnieniu od Z stasujemy dla grup małych z reguły n<30. Kluczowe dla testu t są stopnie swobody df. Rozkład t charakteryzuje się większą niepewnością w porównaniu z testem Z. Odchylenie standardowe z próby znacznie odbiega od odchylenia standardowego z populacji generalnej. • df = n-1 – wzór na stopnie swobody dla jednej próby
Stopnie swobody ale właściwe jak to rozumieć? • Wyobraźmy sobie formułę matematyczną x1 + x2+ x3 = 10 jeśli x3 równa się 5 to x1 może równać się 2 a x2 =3 lub też x1=1 to x2 =4 • Takie równanie ma więc dwa stopnie swobody przy założeniu x3=5 dwie wartości (x1 i x2) mogą być różne
Jak odczytać wartość w tablicach? • Przy odczytywaniu należy zwrócić uwagę czy tabela zawiera jednostronny czy dwustronny obszar krytyczny. • Np. jak oszacować 99 procentowy obszar ufności przy próbie 20 osobowej? • 1-0,99= 0,01 szukamy tej wartości w pierwszym wierszu po czym przesuwamy się w dół do 19 stopni swobody i odczytujemy t • Dla jednostronnego 0,01/2 = 0,005 później postępujemy jak wyżej
Im krótszy przedział (różnica między górną i dolną granicą przedziału), tym bardziej precyzyjna jest estymacja przedziałowa. • Im wyższa jest wartość współczynnika ufności, tym większa jest długość przedziału.