1 / 87

Statystyka matematyczna i stosowana

Statystyka matematyczna i stosowana. Kurs d la Informatyki Matematycznej Semestr zimowy 2007/2008 Strona internetowa : http:// im.pwr.wroc.pl /~ mbogdan. Wykładowca : Małgorzata Bogdan Biuro : C-11 , p. 2.04 Godziny konsultacji : śr . 1 2 : 00 - 14 : 0 0 , czw . 14:30 – 15:30

dean-chavez
Download Presentation

Statystyka matematyczna i stosowana

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statystyka matematyczna i stosowana Kurs dla Informatyki Matematycznej Semestr zimowy 2007/2008 Strona internetowa: http://im.pwr.wroc.pl/~mbogdan

  2. Wykładowca : Małgorzata Bogdan • Biuro: C-11,p.2.04 • Godziny konsultacji: śr. 12:00-14:00, czw. 14:30 – 15:30 • Telefon: 320 21 03 • Email: Malgorzata.Bogdan@pwr.wroc.pl

  3. Oceny • Dwa kolokwia: 18 listopada i 23 stycznia (na wykładzie) 50+50=100pkt. • Aktywność na ćwiczeniach – extra • Laboratoria – 40 pkt • ≥ 90 % (126 pt) bdb, • 90% - 80 % (125 - 112 pt) db +, itd. • dst , ≥ 70 pkt

  4. Podreczniki • Statystyka dla studentów kierunków technicznych i przyrodniczych, J. Koronacki, J. Mielniczuk, WNT 2004, wyd. II • Introduction to the Practice of Statistics, D. Moore, G. McCabe, Freeman 2003, wyd. III • Statistics for the Life Sciences, M. Samuels, J. Witmer, 2003, wyd. III

  5. Listy zadań na ćwiczenia i laboratoria dostępne w internecie • Zachęcam do zadawania pytań na wykładzie

  6. Dane • Używamy danych, aby odpowiedzieć na pytania dotyczące badanych populacji • Na ogół dane charakteryzują się losową zmiennością • Oceniamy informację zawartą w danych

  7. Czym jest statystyka? • Nauka rozumienia danych i podejmowania decyzji w obliczu losowości • Zbiór metod do planowania eksperymentu i analizy danych tak, aby uzyskać maksimum informacji i ilościową ocenę ich wiarygodności

  8. Przykład 1 • Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga nie.Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą ? • Czynniki mogące wpłynąć na wynik eksperymentu: • Ludzie mają naturalnie różne poziomy cholesterolu • Reagują różnie na ten sam reżim ćwiczeń • Różny stopień zaangażowania w realizację ćwiczeń • Wpływ diety • Ćwiczenia mogą wpływać na inne czynniki, np. apetyt

  9. Przykład 2 • Eksperyment mikromacierzowy porównujący komórki rakowe i normalne. Czy dwukrotnie wyższy zaobserwowany poziom ekspresji genu dowodzi faktycznie różnej ekspresji ? • Czy mamy powtórzenia eksperymentu? Czy w powtórzeniach wyniki są podobne ? • Dlaczego dwukrotna zmiana, a nie trzy lub czterokrotna ? Jak ustalić właściwą wartość krytyczną?

  10. Przykład3 • W artykule prasowym czytamy, że 80% pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania, a 20% jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest nosić jasne ubrania. • Czy przeprowadzone badania upoważniają do takiej konkluzji?

  11. Przykład 4Reakcja owiec na bakterie wąglika

  12. Przykład 5Rozwój raka wątroby u myszy

  13. Sygnał i szum • Przykład 4 – brak zmienności (??):mocna konkluzja • Przykład 5 – duża zmienność: słaba konkluzja • Jak duża musi być próba, abyśmy w oparciu o nią mogli wywnioskować, że badany czynnik ma wpływ na wynik eksperymentu?

  14. Losowość • Dane na ogół charakteryzują się zmiennością • Matematycznie modelujemy tą zmienność używając rachunku prawdopodobieństwa

  15. Przykłady • Prognoza pogody- prawdopodobieństwo deszczu wynosi 80% • Prawdopodobieństwo urodzenia dziewczynkiwynosi 0,49

  16. Schemat badań naukowych • Pytanie naukowe • Planowanie eksperymentu • Eksperyment / zbieranie danych • Analiza danych • Wnioski statystyczne • Wnioski naukowe

  17. Próba, Zmienna • Próba: • Obserwacje lub wyniki eksperymentu • Reprezentuje konkretną realizację eksperymentu • Przykłady: • Wysokość 10 kłosów żyta (10 obserwacji) • Poziom(y) hemoglobiny u 35 dawców • Kolor i kształt ziaren grochu

  18. Próba, Zmienna cd. • Rozmiar próby: • “n” • np. n=10,n=35,n=556 • Zmienna: • to co mierzymy • tu: wysokość, poziom hemoglobiny, kolor i kształt

  19. Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Dyskretne Rodzaje zmiennych

  20. Zmienne jakościowe (kategoryczne) • Jakościowe – kwalifikujące do kategorii • Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze • Nie porządkowe, np.: kolor i kształt

  21. Zmienne ilościowe (liczbowe) • Ilościowe – wynik jest liczbą • Ciągłe, np.wzrost, waga, stężenie • Dyskretne, np.liczba wadliwych elementów, liczbagładkich iżółtych groszków

  22. Oznaczenia • Zmienne: X,Y,Z; np.Y=wzrost (pojęcie) • Obserwacja: x,y,z; np. y=182cm (wynik) • Próba: y1,y2,…,yn(wielokrotne obserwacje) • Rozmiar próby: n, czasem n1,n2

  23. Próba a próbka • Biolog mierzy poziom glukozy we krwi 20 ludzi. • „20 próbek krwi”? (biolog) • „Jedna próba 20 pomiarów glukozy.” (statystyk) • Będziemy używali “pomiar” tam, gdzie biolog użyłby słowa “próba”.

  24. Statystyki opisowe: Tabela częstości Groszki:gładkie/pomarszczone, zielone/żółte

  25. Wykres słupkowy (dane jakościowe)

  26. Wykres słupkowy

  27. Wykres kołowy

  28. Dane ilościowe dyskretne • Liczba potomstwa u n=36 macior. Liczność miotu jest liczbącałkowitą (zmienna dyskretna).

  29. Dane

  30. Rozkład liczebności

  31. Histogram (liczebności) • Grupowanie podobnych obserwacji zwykle jest pomocne • Prawie zawsze postępujemy tak z danymi ciągłymi • Definiujemy “klasy” (przedziały) obserwacji i zliczamy liczbę obserwacji wpadających do każdej klasy

  32. Jak wybierać klasy: • Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy rozłączne, pokrywają wszystkie możliwe wyniki) • Rozmiar (szerokość) klas (przedziałów) jest zwykle taki sam • Używamy wygodnych granic przedziałów, np. 20-29, a nie 19.82 – 29.26 • Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n  50); więcej, gdy próba jest duża

  33. Przykład • Dane : długość łodygi papryki (n=15)

  34. Min=10.9, max=14.1, zakres=max-min=3.2 • Wybieramy szerokość klasy, np. 0.5 ipoczątek 10.5, aby pokryć zakres 10.5 – 14.5. • Zliczamy liczby wystąpień i rysujemy histogram. • Ew. zmieniamy szerokość klas, aby uzyskać pożądany kształt • Za mała szerokość klas=dużo „szumu”, za duża = utrata informacji

  35. Tabela liczebności (klas)

  36. Przykład: Stężenia serum CK

  37. Min=25, max=203 • Rozstęp =178 • Szerokość klasy =20 • Punkt początkowy=20

  38. Opis histogramu: • Centralny szczyt (moda) w okolicach 100 J/L • Zasadnicza masa rozkładu między 40 a 140 J/L • Niesymetryczny–skośny na prawo

  39. Interpretacja pola powierzchni pod histogramem (przy równej szerokość klas) • Nad odcinkiem 60 -100 J/L leży: 42% całkowitej powierzchni histogramu • Do tego odcinka wpada: 42% (15z 36) wartości CK

  40. Nierówna szerokość klas • Powierzchnia pod histogramem nie jest proporcjonalna do liczności • W tak „spaczonym’’ histogramie (patrz dalej) powierzchnia między 140 a 220J/Lstanowi 39% całkowitej powierzchni (mimo, że te stężenia stanowiątylko 14% obserwacji) • Rozwiązanie – podzielić liczności przez długość odcinka (liczbę zgrupowanych klas) • Oś Y na przekształconym histogramie – średnia liczność (w zgrupowanych klasach)

  41. Histogram częstości Często rysujemy histogram tak, że na osi pionowej zaznaczamy częstość (względną)=liczba wystąpień / n Histogram częstości jest użyteczny, zwłaszcza dla porównania zbiorów danych o różnych rozmiarach n

  42. Diagram łodygi i liścia (Stem and leaf plot) • Jest to inny sposób podsumowania danych; zachowuje prawie wszystkie informacje. • Wybieramy „łodygę” („pień”) liczby-zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie dziesiętnym • Zapisujemy wszystkie „łodygi” w jednej kolumnie w kolejności rosnącej, i rysujemy pionową linię oddzielającą (od „liści”)

More Related