480 likes | 764 Views
Programy hodowlane i pakiety statystyczne. dr Tomasz Strabel /programy/ dr Maciej Szydłowski /pakiety/. regulamin + program. http://jay.au.poznan.pl/~strabel. Plan na dziś. Przypomnienie paru terminów i metod statystycznych Podstawy pracy z pakietem Statistica Zadania ćwiczeniowe.
E N D
Programy hodowlane i pakiety statystyczne dr Tomasz Strabel /programy/ dr Maciej Szydłowski /pakiety/ regulamin + program http://jay.au.poznan.pl/~strabel
Plan na dziś • Przypomnienie paru terminów i metod statystycznych • Podstawy pracy z pakietem Statistica • Zadania ćwiczeniowe
Gdzie szukać danych? • http://lib.stat.cmu.edu/datasets • http/support.sas.com/training/forms/hecftp1.html • http://www.amstat.org/publications/jse/datasets/moore/ • dane w pakiecie R
Relacje między zmiennymi • Niezależnie od tego, jakiego są typu, dwie lub więcej zmiennych pozostaje w relacji, jeśli wartości tych zmiennych w mierzonej próbie rozłożone są w określony sposób. • Np. rasa może być powiązana z przyrostami, jeżeli większość osobników pbz przyrosta szybciej niż w rasie wpb.
Dwie podstawowe cechy relacji • Siła – np. jeśli każdy osobnik w rasie pbz ma większy przyrost niż osobnik wbp, siła relacji jest bardzo duża. • Wiarygodność - reprezentatywność relacji obserwowanej w pobranej próbce w odniesieniu do całej badanej populacji (wyrażana poziomem istotności).
Wspólna postać większości testów statystycznych. • Najczęściej jest to stosunek tej części zmienności, którą można przypisać testowanemu czynnikowi do zmienności ogólnej (lub pozostałej) • Np. wariancja spowodowana wpływem rasy do pozostałej wariancji. • Jak duży to musi stosunek, żeby uznać go za istotny?
Czy 40% wyjaśnionej zmienności jest wystarczające do uznania relacji za istotną? • Na podstawie bardzo licznej próbki nawet bardzo słaba zależność może być uznana za istotną. • Małe próbki nie pozwalają na ocenę wiarygodności nawet bardzo silnych zależności. • Czy coś jest istotne czy nie, zależy od poziomu istotności.
Poziom istotności • Prawdopodobieństwo popełnienia błędu polegającego na tym, że przyjmujemy uzyskany rezultat jako prawdziwy, tj. reprezentatywny dla populacji. • Malejący wskaźnik wiarygodności rezultatu. • Im wyższy poziom-p, tym mniej możemy być pewni, że relacja obserwowana w próbce jest wiarygodnym wskaźnikiem relacji w całej populacji.
Jaki wynik jest istotny? • Graniczny poziom istotności jest sprawą umowną • Utrwalona tradycja: • p Ł 0.05 – wynik statystycznie istotny • p Ł 0.01 – wynik wysoce istotny
Jak wyliczyć poziom istotności? • Obliczenia są złożone i różne w różnych przypadkach. • Na szczęście wiele statystyk testowych jest związana z funkcją rozkładu normalnego. • Testy oparte na rozkładzie normalnym to t, F i Chi-kwadrat. Zazwyczaj wymagają, żeby same badane zmienne (lub reszty) miały rozkład normalny (założenie o normalności).
Rozkład normalny • Ma kształt dzwonu i zależy od średniej i odch. stand. • 68% przypadków trafia do przedziału odejmującego ±1 odch. stand. od średniej • 95% przypadków w przedziale ±2 odch. stand.
Jak stwierdzić czy rozkład jest normalny? • Wykresy normalności • Testy normalności
Wykres normalności • Przedstawia reszty obserwowane (oś x) oraz reszty oczekiwane przy normalności rozkładu (oś y). • W przypadku normalności rozkładu zmiennej wykres ma formę linii prostej.
Testy normalności • Test Kołmogorowa-Smirnowa (znana średnia i wariancja) • Prawdpodobieńswo Lillieforsa (gdy średnie i wariancja są estymowane z danych – najczęstszy przypadek) • Test W Shapiro Wilka – najlepszy test (w Statistica do 5000 obserwacji)
Co, jeżeli zmienna nie ma rozkładu normalnego? • Transformacja danych • Testy niezależne od rozkładu (nie parametryczne) – mają małą moc! • Mimo wszystko stosujemy test wymagający normalności, pod warunkiem, że dysponujemy dostatecznie liczną próbką. Dlaczego?
Centralne twierdzenie graniczne Im większa próba, tym bardziej rozkład statystyki testowej z próby zbliża się do rozkładu normalnego, nawet jeśli zmienna, którą mierzymy, nie posiada rozkładu normalnego.
Jeszcze jeden powód popularności testów opartch na rozkładzie normalnym Na ogół, konsekwencje złamania założenia o normalności nie są takie poważne, jak sądzono wcześniej. Co nie znaczy, że można ignorować całkowity brak zgodności z rozkładem normalnym.
Istotność statystyczna a liczba przeprowadzonych analiz • Im więcej analiz przeprowadzimy, tym większa liczba wyników przekracza ustalony poziom istotności przez przypadek (wyniki fałszywie pozytywne) • 10 zmiennych to 45 korelacji i ok. 2 korelacji z p Ł 0,05 • Przy testach wielokrotnych należy przyjmować inny graniczny poziom istotności – jaki?
test t • Testowanie pojedynczej średniej • Porównanie średnich w dwóch grupach: • Grupy niezależne, np. zwierzęta żywione mieszanką treściwą contra grupa żywiona paszą objętościową • Grupy zależne (obserwacje sparowane), np. zachorowalność w tej samej populacji przed i po wprowadzeniu szczepień
Testowanie pojedynczej średniej Np. Czy przyrost dzienny w rasie wbp odbiega od średniej dla wszystkich ras (832 gramy)? Założenie: rozład normalny
Testowanie różnic między dwiema grupami – grupy niezależne • Czy rasa wbp i pbz mają różne tempo przyrostu? (Statistica: Test t dla prób niezależnych w grupach) • Próby nie muszą być duże, np. po 10 obserwacji. • Założenia: normalność rozkładu zmiennych oraz brak istotnych różnic między wariancjami. Jednorodność wariancji sprawdzamy za pomocą testu F .
Testowanie różnic między dwiema grupami – c.d. • Jeśli znak różnicy średnich jest zgodny z przewidywaniami, to można do testowania używać jedynie połowy (jednego ogona) rozkładu prawdopodobieństwa i dzielić podawany poziom p (prawdopodobieństwo wyznaczone przez obydwa "ogony" rozkładu) przez dwa • Nie wszyscy się z tym zgadzają!
Import danych tekstowych 1 2 3
4 5 Pamiętaj! Zamień kropki na przecinki
Wykresy rozkładu histogram - słupek proporcjonalny do liczby obserwacji w przedziale wykres łodyga-liść – słupek zawiera prawdziwe wartości w danym przedziale w formie np.: 7° 000038 4 wartości = 7,0 1 wartość = 7,3 1 wartość = 7,8
Wykresy skategoryzowane Tworzone są przez podzielenie danych na podzbiory, a następnie odwzorowanie wszystkich podzbiorów na oddzielnych, małych wykresach składowych, rozmieszczonych na jednym obrazie. Na przykład jeden wykres może reprezentować rasę świń pbz, inny rasę świń wbp, itd.
Wykresy powierzchniowe 3W- funkcje wygładzania powierzchni • Liniowa. Do punktów na wykresie rozrzutu 3W dopasowana będzie powierzchnia płaska (o równaniu: Z = a + bX + cY). • Kwadratowa. Do punktów na wykresie rozrzutu 3W dopasowana będzie powierzchnia drugiego stopnia. • Najmniejszych kwadratów ważona odległością. wpływ punktów maleje z odległością w poziomie od aktualnie obliczanego punktu powierzchni
Plasma-Retinol http://lib.stat.cmu.edu/datasets AGE: Age (years) SEX: Sex (1=Male, 2=Female). SMOKSTAT: Smoking status (1=Never, 2=Former, 3=Current Smoker) QUETELET: Quetelet (weight/(height^2)) VITUSE: Vitamin Use (1=Yes, fairly often, 2=Yes, not often, 3=No) CALORIES: Number of calories consumed per day. FAT: Grams of fat consumed per day. FIBER: Grams of fiber consumed per day. ALCOHOL: Number of alcoholic drinks consumed per week. CHOLESTEROL: Cholesterol consumed (mg per day). BETADIET: Dietary beta-carotene consumed (mcg per day). RETDIET: Dietary retinol consumed (mcg per day) BETAPLASMA: Plasma beta-carotene (ng/ml) RETPLASMA: Plasma Retinol (ng/ml)
Zadania • Oblicz średnie • Utwórz skategoryzowane (względem nawyku palenia) wykresy ramka-wąsy dla spożycia kalorii i cholesterolu • Narysuj histogramy spożycia kalorii i cholesterolu • Przetestuj normalność spożycia kalorii i cholesterolu • Czy płeć różnicuje spożycie alkoholu lub cholesterolu?
Dla chętnychCPS_85_Wageshttp://lib.stat.cmu.edu/datasets 1. Czy zarobki mają rozkład normalny? 2. Jakie są średnie zarobki i ich zróżnicowanie w grupie mężczyzn i kobiet? 3. Czy zarobki zależą od płci? 4. Czy zawarcie związku małżeńskiego może się przełożyć na zwiększone zarobki? 5. Czy przynależność do związku zawodowego zwiększa zarobki?