880 likes | 1.05k Views
Statystyka matematyczna i stosowana. Kurs d la Informatyki Matematycznej Semestr zimowy 2007/2008 Strona internetowa : http:// im.pwr.wroc.pl /~ mbogdan. Wykładowca : Małgorzata Bogdan Biuro : C-11 , p. 2.04 Godziny konsultacji : śr . 1 2 : 00 - 14 : 0 0 , czw . 14:30 – 15:30
E N D
Statystyka matematyczna i stosowana Kurs dla Informatyki Matematycznej Semestr zimowy 2007/2008 Strona internetowa: http://im.pwr.wroc.pl/~mbogdan
Wykładowca : Małgorzata Bogdan • Biuro: C-11,p.2.04 • Godziny konsultacji: śr. 12:00-14:00, czw. 14:30 – 15:30 • Telefon: 320 21 03 • Email: Malgorzata.Bogdan@pwr.wroc.pl
Oceny • Dwa kolokwia: 18 listopada i 23 stycznia (na wykładzie) 50+50=100pkt. • Aktywność na ćwiczeniach – extra • Laboratoria – 40 pkt • ≥ 90 % (126 pt) bdb, • 90% - 80 % (125 - 112 pt) db +, itd. • dst , ≥ 70 pkt
Podreczniki • Statystyka dla studentów kierunków technicznych i przyrodniczych, J. Koronacki, J. Mielniczuk, WNT 2004, wyd. II • Introduction to the Practice of Statistics, D. Moore, G. McCabe, Freeman 2003, wyd. III • Statistics for the Life Sciences, M. Samuels, J. Witmer, 2003, wyd. III
Listy zadań na ćwiczenia i laboratoria dostępne w internecie • Zachęcam do zadawania pytań na wykładzie
Dane • Używamy danych, aby odpowiedzieć na pytania dotyczące badanych populacji • Na ogół dane charakteryzują się losową zmiennością • Oceniamy informację zawartą w danych
Czym jest statystyka? • Nauka rozumienia danych i podejmowania decyzji w obliczu losowości • Zbiór metod do planowania eksperymentu i analizy danych tak, aby uzyskać maksimum informacji i ilościową ocenę ich wiarygodności
Przykład 1 • Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga nie.Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą ? • Czynniki mogące wpłynąć na wynik eksperymentu: • Ludzie mają naturalnie różne poziomy cholesterolu • Reagują różnie na ten sam reżim ćwiczeń • Różny stopień zaangażowania w realizację ćwiczeń • Wpływ diety • Ćwiczenia mogą wpływać na inne czynniki, np. apetyt
Przykład 2 • Eksperyment mikromacierzowy porównujący komórki rakowe i normalne. Czy dwukrotnie wyższy zaobserwowany poziom ekspresji genu dowodzi faktycznie różnej ekspresji ? • Czy mamy powtórzenia eksperymentu? Czy w powtórzeniach wyniki są podobne ? • Dlaczego dwukrotna zmiana, a nie trzy lub czterokrotna ? Jak ustalić właściwą wartość krytyczną?
Przykład3 • W artykule prasowym czytamy, że 80% pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania, a 20% jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest nosić jasne ubrania. • Czy przeprowadzone badania upoważniają do takiej konkluzji?
Sygnał i szum • Przykład 4 – brak zmienności (??):mocna konkluzja • Przykład 5 – duża zmienność: słaba konkluzja • Jak duża musi być próba, abyśmy w oparciu o nią mogli wywnioskować, że badany czynnik ma wpływ na wynik eksperymentu?
Losowość • Dane na ogół charakteryzują się zmiennością • Matematycznie modelujemy tą zmienność używając rachunku prawdopodobieństwa
Przykłady • Prognoza pogody- prawdopodobieństwo deszczu wynosi 80% • Prawdopodobieństwo urodzenia dziewczynkiwynosi 0,49
Schemat badań naukowych • Pytanie naukowe • Planowanie eksperymentu • Eksperyment / zbieranie danych • Analiza danych • Wnioski statystyczne • Wnioski naukowe
Próba, Zmienna • Próba: • Obserwacje lub wyniki eksperymentu • Reprezentuje konkretną realizację eksperymentu • Przykłady: • Wysokość 10 kłosów żyta (10 obserwacji) • Poziom(y) hemoglobiny u 35 dawców • Kolor i kształt ziaren grochu
Próba, Zmienna cd. • Rozmiar próby: • “n” • np. n=10,n=35,n=556 • Zmienna: • to co mierzymy • tu: wysokość, poziom hemoglobiny, kolor i kształt
Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Dyskretne Rodzaje zmiennych
Zmienne jakościowe (kategoryczne) • Jakościowe – kwalifikujące do kategorii • Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze • Nie porządkowe, np.: kolor i kształt
Zmienne ilościowe (liczbowe) • Ilościowe – wynik jest liczbą • Ciągłe, np.wzrost, waga, stężenie • Dyskretne, np.liczba wadliwych elementów, liczbagładkich iżółtych groszków
Oznaczenia • Zmienne: X,Y,Z; np.Y=wzrost (pojęcie) • Obserwacja: x,y,z; np. y=182cm (wynik) • Próba: y1,y2,…,yn(wielokrotne obserwacje) • Rozmiar próby: n, czasem n1,n2
Próba a próbka • Biolog mierzy poziom glukozy we krwi 20 ludzi. • „20 próbek krwi”? (biolog) • „Jedna próba 20 pomiarów glukozy.” (statystyk) • Będziemy używali “pomiar” tam, gdzie biolog użyłby słowa “próba”.
Statystyki opisowe: Tabela częstości Groszki:gładkie/pomarszczone, zielone/żółte
Dane ilościowe dyskretne • Liczba potomstwa u n=36 macior. Liczność miotu jest liczbącałkowitą (zmienna dyskretna).
Histogram (liczebności) • Grupowanie podobnych obserwacji zwykle jest pomocne • Prawie zawsze postępujemy tak z danymi ciągłymi • Definiujemy “klasy” (przedziały) obserwacji i zliczamy liczbę obserwacji wpadających do każdej klasy
Jak wybierać klasy: • Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy rozłączne, pokrywają wszystkie możliwe wyniki) • Rozmiar (szerokość) klas (przedziałów) jest zwykle taki sam • Używamy wygodnych granic przedziałów, np. 20-29, a nie 19.82 – 29.26 • Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n 50); więcej, gdy próba jest duża
Przykład • Dane : długość łodygi papryki (n=15)
Min=10.9, max=14.1, zakres=max-min=3.2 • Wybieramy szerokość klasy, np. 0.5 ipoczątek 10.5, aby pokryć zakres 10.5 – 14.5. • Zliczamy liczby wystąpień i rysujemy histogram. • Ew. zmieniamy szerokość klas, aby uzyskać pożądany kształt • Za mała szerokość klas=dużo „szumu”, za duża = utrata informacji
Min=25, max=203 • Rozstęp =178 • Szerokość klasy =20 • Punkt początkowy=20
Opis histogramu: • Centralny szczyt (moda) w okolicach 100 J/L • Zasadnicza masa rozkładu między 40 a 140 J/L • Niesymetryczny–skośny na prawo
Interpretacja pola powierzchni pod histogramem (przy równej szerokość klas) • Nad odcinkiem 60 -100 J/L leży: 42% całkowitej powierzchni histogramu • Do tego odcinka wpada: 42% (15z 36) wartości CK
Nierówna szerokość klas • Powierzchnia pod histogramem nie jest proporcjonalna do liczności • W tak „spaczonym’’ histogramie (patrz dalej) powierzchnia między 140 a 220J/Lstanowi 39% całkowitej powierzchni (mimo, że te stężenia stanowiątylko 14% obserwacji) • Rozwiązanie – podzielić liczności przez długość odcinka (liczbę zgrupowanych klas) • Oś Y na przekształconym histogramie – średnia liczność (w zgrupowanych klasach)
Histogram częstości Często rysujemy histogram tak, że na osi pionowej zaznaczamy częstość (względną)=liczba wystąpień / n Histogram częstości jest użyteczny, zwłaszcza dla porównania zbiorów danych o różnych rozmiarach n
Diagram łodygi i liścia (Stem and leaf plot) • Jest to inny sposób podsumowania danych; zachowuje prawie wszystkie informacje. • Wybieramy „łodygę” („pień”) liczby-zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie dziesiętnym • Zapisujemy wszystkie „łodygi” w jednej kolumnie w kolejności rosnącej, i rysujemy pionową linię oddzielającą (od „liści”)