1 / 35

Wykład 2 Wrocław, 11 X 2006

Wykład 2 Wrocław, 11 X 2006. Wpływ przekształceń Co się stanie ze średnią i odchyleniem standardowym gdy zmienimy jednostki ? stopnie Celsius za  stopnie Fahrenheit a dol ary  1,000 dolarów wartość faktyczna  odległość od minimum cm : mm, in, nm, m, ft ; dol ary : euro.

gerard
Download Presentation

Wykład 2 Wrocław, 11 X 2006

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Wykład 2 Wrocław,11 X 2006 Wpływ przekształceń Co się stanie ze średnią i odchyleniem standardowym gdy zmienimy jednostki ? • stopnie Celsiuszastopnie Fahrenheita • dolary 1,000 dolarów • wartość faktycznaodległość od minimum • cm : mm, in, nm, m, ft; dolary : euro

  2. Zmiana wartości wynikająca ze zmiany jednostek dana jest zwykle funkcją liniową: y’ = ay + c Przykłady: • y’ = 1.8 y + 32 • y’ = 1/1000 y ( + 0) • y’ = (1)y - ymin

  3. Liniowa transformacja zmiennych, cd. • Funkcja liniowa nie zmienia w zasadniczy sposób kształtu histogramu. Może go rozszerzyć (|a| >1), ścieśnić (|a|<1), przesunąć (c<>0) i obrócić (a<0).

  4. Wpływ stałej (odejmujemy 20)

  5. Liniowa transformacja zmiennych, cd. • Średnia zmienia się tak jak y. Mamy: y’ = ay + c • Odchylenie standardowe s zmienia się tylko w zależności od współczynnika a. Stała c nie ma wpływu na odchylenie standardowe, ponieważ zależy ono jedynie od odchyleń od średniej. Mamy: s’ = |a| s

  6. Liniowa transformacja zmiennych, cd. • Wariancja próbkowa Wariancja jest kwadratem SD. Mamy: s2’ = a2s2 • Przykład: • Y- temperatura wF: = 98.6, s = 0.9, s2 = 0.81 • Pytanie 1: Oblicz średnią, odchylenie standardowe i wariancję dla tych samych danych wyrażonych w stopniach Celsjusza.

  7. Odpowiedź

  8. Standardyzacja • Pytanie 2: Jakich wyników należy oczekiwać, gdy dane przekształcimy w następujący sposób Y' = (Y- )/s =(Y-98.6)/0.9 ? • Jest to transformacja liniowa: Y' = 1/s Y - y/s. • Odpowiedź:

  9. Liniowa transformacja zmiennych: inne statystyki • Funkcja liniowa zmienia: • medianę i kwartyle tak jak średnią, • rozstęp i IQR tak jak odchylenie standardowe.

  10. Transformacje nieliniowe • Funkcje nieliniowe (np. logarytm) zmieniają kształt histogramu i na ogół nie ma dla nich prostych formuł umożliwiających obliczenie nowej średniej i nowego odchylenia standardowego. • Parametry te liczymy z definicji korzystając z „nowego’’ zbioru danych. • Przykład : dla Y’=log(Y) na ogóły’≠logy • Z medianą i kwartylami jest lepiej... • Czasami używamy funkcji nieliniowych, aby przekształcić skośne dane w bardziej symetryczne.

  11. Wnioskowanie statystycznePróba a populacja • Populacja: • Zbiór, z którego losujemy próbę i który chcemy opisać. • Czasami rzeczywista, czasami abstrakcyjna (np. „nieskończenie duża próba”) . • Próba: • Podzbiór populacji. • Próba powinna byćreprezentatywna dla populacji. • Wnioskowanie statystyczne: • Wnioskowanie o populacji w oparciu o próbę.

  12. Populacja Próba Grupa wykładowa 10 losowo wybranych studentów Wszyscy pacjenci biorący Prozac 30 pacjentów biorących Prozac ``wszystkie’’ rzuty kostkami 25 rzutów kostką Wszystkie owocówki ze śmietnika, albo Wszystkie owocówki w okolicy Owocówki złapane na śmietniku Próbkowanie Populacja  Próba y s Wnioskowanie Parametry : ,  Statystyki

  13. Parametry populacji • μ = średnia w populacji, μ=EY, wartość oczekiwana zmiennej Y • σ = odchylenie standardowe w populacji, σ =(Var Y)1/2, ...i inne. • Statystyki z próby sąestymatorami, służą do oceny parametrów całej populacji.

  14. Przykład • Grupy krwi u 3696 osóbżyjących w Anglii. • Około 44% ludzi w próbie ma grupę krwi A. • A w Anglii?? • Czy nie było systematycznego błędu przy próbkowaniu? • Czy rozmiar próby był dość duży?

  15. Możliwe błędy przy próbkowaniu: • Próbazłożona zprzyjaciół ipracowników może nie być reprezentatywna. Mimo tego... • Grupy krwi mogą być reprezentatywne. Ale już... • Pomiary ciśnienia nie byłyby reprezentatywne (ciśnienie na ogół wzrasta z wiekiem).

  16. Populacja a próba • Średnia z próbyyna ogół różni się od wartości oczekiwanej μ=EY (średniej w populacji), ale w miarę wzrostu rozmiaru próby różnica między tymi wielkościami zwykle dąży do zera (Mocne Prawo Wielkich Liczb). • Średnia z próby jest estymatorem wartości oczekiwanej. • Podobnie próbkowe odchylenie standardowe s i wariancja próbkowa s2 są estymatorami odpowiednich parametrów w populacji: σ i σ2=Var Y.

  17. Przykład • Rozmiar populacji=50, średnia w populacji =26.48 • Dane: 25.5 17.8 36.7 29.8 40.7 26.0 7.7 27.7 10.3 22.3 45.4 43.4 20.2 42.2 44.5 1.6 5.7 48.6 23.9 27.2 17.0 19.5 47.7 3.9 39.3 9.2 30.7 18.9 25.7 32.8 16.8 11.7 13.9 4.9 49.4 30.5 20.7 38.1 25.6 40.7 45.0 30.8 11.3 34.0 49.7 21.3 3.5 28.7 19.7 35.6 • stopniowo powiększamy próbęlosową do rozmiarów n=10,20,30,40 • otrzymana średnia z próby: 23.5 (dla n=10), 27.3 (n=20), 26.7(n=30), 26.4(n=40)

  18. Histogram z populacji a histogram próbkowy • Dane dyskretne (klasy) • Oznaczamy: pi=frakcja (częstość) osobników w całej populacji w i-tej kategorii. • pi można ustalić w oparciu o histogram skonstruowany dla całej populacji. • Oznaczamy: = estymator obliczony w oparciu o histogram z próby (zaobserwowana częstość w danej kategorii).

  19. Przykład Rozmiar populacji =10000. 5 klas o tej samej częstościpi= (?). W tabeli tylko kategorie 1. i 5.

  20. n=10

  21. Próbkowanie, cd. • Prosta próba losowa: • Każdy osobnik z populacji może być wybrany z tym samym prawdopodobieństwem. • Wybory poszczególnych osobników są od siebie niezależne.

  22. Jak wybrać prostą próbę losową: • Mechanizm losujący, np.: • Przyznajemy numer każdemu osobnikowi • Zapisujemy numery na kulach • Mieszamy kule w urnie • Losujemy kule=numery=osobników, tyle razy, ile wynosi rozmiar próby • Do losowania możemy również użyć komputera lub gotowej tablicy liczb (numerów) losowych (zob. dalej). • Gdy rozmiar populacji nie jest ustalony lub nie mamy dostępu do wszystkich osobników, zadanie jest dużo trudniejsze.

  23. Błędy w póbkowaniu, cd,Przykład 1 (Ochotnicy) • Dziennikarka Ann Landers spytała swoich czytelników „Gdybyście mogli zacząć je-szcze raz: czy mielibyście znowu dzieci?” • Odpisało prawie 10,000 czytelnikówi70%powiedziało: Nie! • Populacja: wszyscy rodzice w USA

  24. Przykład 1 (Ochotnicy) cd. • Próba: pewna część populacji, która zdecydowała się odpisać, n=10,000. • Czasopismo Newsdayprzeprowadziło „statystycznie zaplanowaną” ankietę, w której91%z 1,373 przepytanych rodziców odpowiedziało: Tak! • Ochotnicy: bardzo zła reprezentatywność (badanie bezwartościowe).

  25. Przykład 2 Przewidywanie wyników wyborów prezydenckich w USA, 1936: • Literary Digest wysłało kwestionariusze do 10 milionów ludzi (25% głosujących) • Odpowiedziało 2.4 miliona: • Przewidywanie: Landon 57%, Roosevelt 43% • Wynikwyborów: Roosevelt 62%, Landon 38% • Uwagi: F.D. Roosevelt, Partia Demokratyczna, prezydent w latach 1933-1945;Wielki Kryzys: 1929-1933

  26. Przyczyny błędu Literary Digest: • Złe (dyskryminujące) próbkowanie • Użyto książek telefonicznych, list członkowskich klubów, listy zamówień pocztowych, listy właścicieli pojazdów • Brak odpowiedzi • Tylko 24% odpowiedziało (niemal wyłącznie Republikanie) Uwaga: George Gallup przewidział poprawnie na podstawie reprezentatywnej próbki 50 000 osób.

  27. Obciążenie w próbkowaniu • Obciążenie w próbkowaniu występuje, gdy mamy do czynienia z systematycznym błędem faworyzującym pewną część populacji. W przypadku takiego obciążenia nie pomoże nawet duży rozmiar próby. • Losowy wybór elementów do próby zwykle eliminuje takie obciążenie.

  28. Warianty losowego wyboru: Stratyfikacja • Dzielimy populację na pod-populacje podobnych jednostek (warstwy) i oddzielnie próbkujemy w każdej warstwie. • Przykłady warstw: • studenci & studentki • grupy zawodowe • regiony geograficzne

  29. Podstawowe metody estymacji(patrz tablica) • Metoda momentów • Metoda największej wiarogodności

More Related