1 / 48

Programy hodowlane i pakiety statystyczne

Programy hodowlane i pakiety statystyczne. dr Tomasz Strabel /programy/ dr Maciej Szydłowski /pakiety/. regulamin + program. http://jay.au.poznan.pl/~strabel. Plan na dziś. Przypomnienie paru terminów i metod statystycznych Podstawy pracy z pakietem Statistica Zadania ćwiczeniowe.

valin
Download Presentation

Programy hodowlane i pakiety statystyczne

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Programy hodowlane i pakiety statystyczne dr Tomasz Strabel /programy/ dr Maciej Szydłowski /pakiety/ regulamin + program http://jay.au.poznan.pl/~strabel

  2. Plan na dziś • Przypomnienie paru terminów i metod statystycznych • Podstawy pracy z pakietem Statistica • Zadania ćwiczeniowe

  3. Gdzie szukać danych? • http://lib.stat.cmu.edu/datasets • http/support.sas.com/training/forms/hecftp1.html • http://www.amstat.org/publications/jse/datasets/moore/ • dane w pakiecie R

  4. Relacje między zmiennymi • Niezależnie od tego, jakiego są typu, dwie lub więcej zmiennych pozostaje w relacji, jeśli wartości tych zmiennych w mierzonej próbie rozłożone są w określony sposób. • Np. rasa może być powiązana z przyrostami, jeżeli większość osobników pbz przyrosta szybciej niż w rasie wpb.

  5. Dwie podstawowe cechy relacji • Siła – np. jeśli każdy osobnik w rasie pbz ma większy przyrost niż osobnik wbp, siła relacji jest bardzo duża. • Wiarygodność - reprezentatywność relacji obserwowanej w pobranej próbce w odniesieniu do całej badanej populacji (wyrażana poziomem istotności).

  6. Wspólna postać większości testów statystycznych. • Najczęściej jest to stosunek tej części zmienności, którą można przypisać testowanemu czynnikowi do zmienności ogólnej (lub pozostałej) • Np. wariancja spowodowana wpływem rasy do pozostałej wariancji. • Jak duży to musi stosunek, żeby uznać go za istotny?

  7. Czy 40% wyjaśnionej zmienności jest wystarczające do uznania relacji za istotną? • Na podstawie bardzo licznej próbki nawet bardzo słaba zależność może być uznana za istotną. • Małe próbki nie pozwalają na ocenę wiarygodności nawet bardzo silnych zależności. • Czy coś jest istotne czy nie, zależy od poziomu istotności.

  8. Poziom istotności • Prawdopodobieństwo popełnienia błędu polegającego na tym, że przyjmujemy uzyskany rezultat jako prawdziwy, tj. reprezentatywny dla populacji. • Malejący wskaźnik wiarygodności rezultatu. • Im wyższy poziom-p, tym mniej możemy być pewni, że relacja obserwowana w próbce jest wiarygodnym wskaźnikiem relacji w całej populacji.

  9. Jaki wynik jest istotny? • Graniczny poziom istotności jest sprawą umowną • Utrwalona tradycja: • p Ł 0.05 – wynik statystycznie istotny • p Ł 0.01 – wynik wysoce istotny

  10. Jak wyliczyć poziom istotności? • Obliczenia są złożone i różne w różnych przypadkach. • Na szczęście wiele statystyk testowych jest związana z funkcją rozkładu normalnego. • Testy oparte na rozkładzie normalnym to t, F i Chi-kwadrat. Zazwyczaj wymagają, żeby same badane zmienne (lub reszty) miały rozkład normalny (założenie o normalności).

  11. Rozkład normalny • Ma kształt dzwonu i zależy od średniej i odch. stand. • 68% przypadków trafia do przedziału odejmującego ±1 odch. stand. od średniej • 95% przypadków w przedziale ±2 odch. stand.

  12. Jak stwierdzić czy rozkład jest normalny? • Wykresy normalności • Testy normalności

  13. Wykres normalności • Przedstawia reszty obserwowane (oś x) oraz reszty oczekiwane przy normalności rozkładu (oś y). • W przypadku normalności rozkładu zmiennej wykres ma formę linii prostej.

  14. Testy normalności • Test Kołmogorowa-Smirnowa (znana średnia i wariancja) • Prawdpodobieńswo Lillieforsa (gdy średnie i wariancja są estymowane z danych – najczęstszy przypadek) • Test W Shapiro Wilka – najlepszy test (w Statistica do 5000 obserwacji)

  15. Co, jeżeli zmienna nie ma rozkładu normalnego? • Transformacja danych • Testy niezależne od rozkładu (nie parametryczne) – mają małą moc! • Mimo wszystko stosujemy test wymagający normalności, pod warunkiem, że dysponujemy dostatecznie liczną próbką. Dlaczego?

  16. Centralne twierdzenie graniczne Im większa próba, tym bardziej rozkład statystyki testowej z próby zbliża się do rozkładu normalnego, nawet jeśli zmienna, którą mierzymy, nie posiada rozkładu normalnego.

  17. Jeszcze jeden powód popularności testów opartch na rozkładzie normalnym Na ogół, konsekwencje złamania założenia o normalności nie są takie poważne, jak sądzono wcześniej. Co nie znaczy, że można ignorować całkowity brak zgodności z rozkładem normalnym.

  18. Istotność statystyczna a liczba przeprowadzonych analiz • Im więcej analiz przeprowadzimy, tym większa liczba wyników przekracza ustalony poziom istotności przez przypadek (wyniki fałszywie pozytywne) • 10 zmiennych to 45 korelacji i ok. 2 korelacji z p  Ł 0,05 • Przy testach wielokrotnych należy przyjmować inny graniczny poziom istotności – jaki?

  19. test t • Testowanie pojedynczej średniej • Porównanie średnich w dwóch grupach: • Grupy niezależne, np. zwierzęta żywione mieszanką treściwą contra grupa żywiona paszą objętościową • Grupy zależne (obserwacje sparowane), np. zachorowalność w tej samej populacji przed i po wprowadzeniu szczepień

  20. Testowanie pojedynczej średniej Np. Czy przyrost dzienny w rasie wbp odbiega od średniej dla wszystkich ras (832 gramy)? Założenie: rozład normalny

  21. Testowanie różnic między dwiema grupami – grupy niezależne • Czy rasa wbp i pbz mają różne tempo przyrostu? (Statistica: Test t dla prób niezależnych w grupach) • Próby nie muszą być duże, np. po 10 obserwacji. • Założenia: normalność rozkładu zmiennych oraz brak istotnych różnic między wariancjami. Jednorodność wariancji sprawdzamy za pomocą testu F .

  22. Testowanie różnic między dwiema grupami – c.d. • Jeśli znak różnicy średnich jest zgodny z przewidywaniami, to można do testowania używać jedynie połowy (jednego ogona) rozkładu prawdopodobieństwa i dzielić podawany poziom p (prawdopodobieństwo wyznaczone przez obydwa "ogony" rozkładu) przez dwa • Nie wszyscy się z tym zgadzają!

  23. Pakiet Statistica

  24. Import danych tekstowych 1 2 3

  25. 4 5 Pamiętaj! Zamień kropki na przecinki

  26. Podstawowe statystyki opisowe

  27. Podstawowe statystyki opisowe

  28. Podstawowe statystyki opisowe

  29. Wykres ramka-wąsy

  30. Wykresy rozkładu histogram - słupek proporcjonalny do liczby obserwacji w przedziale wykres łodyga-liść – słupek zawiera prawdziwe wartości w danym przedziale w formie np.: 7° 000038 4 wartości = 7,0 1 wartość = 7,3 1 wartość = 7,8

  31. Histogram – 2 cechy

  32. Wykres łodyga-liść

  33. Rozkład normalny

  34. Cecha o rozkładzie normalnym

  35. Cecha o innym rozkładzie

  36. Testy normalności

  37. Wykresy skategoryzowane Tworzone są przez podzielenie danych na podzbiory, a następnie odwzorowanie wszystkich podzbiorów na oddzielnych, małych wykresach składowych, rozmieszczonych na jednym obrazie. Na przykład jeden wykres może reprezentować rasę świń pbz, inny rasę świń wbp, itd.

  38. Wykresy powierzchniowe 3W

  39. Wykresy powierzchniowe 3W- funkcje wygładzania powierzchni • Liniowa. Do punktów na wykresie rozrzutu 3W dopasowana będzie powierzchnia płaska (o równaniu: Z = a + bX + cY). • Kwadratowa. Do punktów na wykresie rozrzutu 3W dopasowana będzie powierzchnia drugiego stopnia. • Najmniejszych kwadratów ważona odległością. wpływ punktów maleje z odległością w poziomie od aktualnie obliczanego punktu powierzchni

  40. Wykres macierzowy

  41. Porównanie średnich

  42. Plasma-Retinol http://lib.stat.cmu.edu/datasets AGE: Age (years) SEX: Sex (1=Male, 2=Female). SMOKSTAT: Smoking status (1=Never, 2=Former, 3=Current Smoker) QUETELET: Quetelet (weight/(height^2)) VITUSE: Vitamin Use (1=Yes, fairly often, 2=Yes, not often, 3=No) CALORIES: Number of calories consumed per day. FAT: Grams of fat consumed per day. FIBER: Grams of fiber consumed per day. ALCOHOL: Number of alcoholic drinks consumed per week. CHOLESTEROL: Cholesterol consumed (mg per day). BETADIET: Dietary beta-carotene consumed (mcg per day). RETDIET: Dietary retinol consumed (mcg per day) BETAPLASMA: Plasma beta-carotene (ng/ml) RETPLASMA: Plasma Retinol (ng/ml)

  43. Zadania • Oblicz średnie • Utwórz skategoryzowane (względem nawyku palenia) wykresy ramka-wąsy dla spożycia kalorii i cholesterolu • Narysuj histogramy spożycia kalorii i cholesterolu • Przetestuj normalność spożycia kalorii i cholesterolu • Czy płeć różnicuje spożycie alkoholu lub cholesterolu?

  44. Dla chętnychCPS_85_Wageshttp://lib.stat.cmu.edu/datasets 1. Czy zarobki mają rozkład normalny? 2. Jakie są średnie zarobki i ich zróżnicowanie w grupie mężczyzn i kobiet? 3. Czy zarobki zależą od płci? 4. Czy zawarcie związku małżeńskiego może się przełożyć na zwiększone zarobki? 5. Czy przynależność do związku zawodowego zwiększa zarobki?

More Related