310 likes | 534 Views
Matematyczne techniki zarządzania - 31. ZMIENNE LOSOWE CIĄGŁE. Są to zmienne, które mogą przyjmować wartości z nieprzeliczalnego zbioru wartości (przy założeniu, że będą mierzone z wystarczającą dokładnością). Zmienna ciągła jest opisywana dwoma funkcjami: funkcją gęstości f(X)
E N D
Matematyczne techniki zarządzania - 31 ZMIENNE LOSOWE CIĄGŁE Są to zmienne, które mogą przyjmować wartości z nieprzeliczalnego zbioru wartości (przy założeniu, że będą mierzone z wystarczającą dokładnością). • Zmienna ciągła jest opisywana dwoma funkcjami: • funkcją gęstości f(X) • dystrybuantą F(X) dystrybuanta funkcja gęstości P(X=a) = O f(a) a
Matematyczne techniki zarządzania - 32 • Interpretacja wykresu • całe pole pod funkcją gęstości ma powierzchnię równą 1 • wartość funkcji dystrybuanty zmienia się wraz z wartością x w sposób pokazany strzałką (prawa granica pola przesuwa się) • znajomość funkcji dystrybuanty jest potrzebna do rozwiązywania wszelkich zadań: P(X<a), P(X>a), P(7<X<11) itd. • Najważniejsze rozkłady ciągłe: • 2 (chi kwadrat) • Erlanga • Fishera-Snedecora (F) • normalny (Gaussa) (z) • logarytmiczno-normalny • prostokątny • Studenta (t) • trójkątny • Wallace’a-Snedecora (R) • Weilbulla • wykładniczy dystrybuanta funkcja gęstości f(a) a
Matematyczne techniki zarządzania - 33 Rozkład prostokątny Nosi on też nazwę rozkładu równomiernego lub jednostajnego (amodalnego). Jego funkcja gęstości ma stałą wartość w przedziale (a, b), natomiast dla pozostałych wartości X jest równa 0. Przykład 11. Autobus linii 144 jeździ regularnie co 8 minut. Czas oczekiwania na autobus (zmienna X) ma więc rozkład prostokątny (rysunek). Oblicz: 1. średni czas oczekiwania 2. jego odchylenie standardowe 3. szansę czekania dokładnie 3 min 4. szansę czekania około 3 min 5. szansę czekania mniej niż 3 min 6. szansę czekania więcej niż 3 min a=0 b=8 7. prawdopodobieństwo, że czas czekania będzie w granicach od trzech do siedmiu minut
Matematyczne techniki zarządzania - 34 1. średni czas oczekiwania E(X) = 4 min 3. P(X=3)=? 4. P(X3)=? 2. wariancja V(X) =5,33 min2; odchylenie standardowe s = 2,31 min 5. prawdopodobieństwo, że X<3 min odpowiada polu powierzchnia tego pola wynosi 3h, gdzie h = 1/(a—b) =1/8 =0,125 P(X<3) =(3)(0,125) = 0,375; stąd F(X=3) = 0,375 6. prawdopodobieństwo, że X>3 min odpowiada polu powierzchnia tego pola wynosi 5h, czyli (5)(0,125) = 0,625 inaczej: P(X>3) = 1 — F(X=3) = 1 — 0,375 = 0,625 7. P(3<X<7) = (7—3)(0,125) = 0,5 = pole Pole to można obliczyć jako różnicę dwu wartości dystrybuanty F(X=7)—F(X=3) = — P(3<X<7) = 0,875 — 0,375 = 0,5 TAKIE DZIAŁANIA NA WARTOŚCIACH DYSTRYBUANTY UMOŻLIWIĄ NAM ROZWIĄZYWANIE WIELU ZADAŃ!
Matematyczne techniki zarządzania - 35 Rozkład trójkątny Rozkład ten jest dany trzema wartościami zmiennej: f(X) dystrybuanta funkcja gęstości a — najmniejsza przewidywana b — najbardziej prawdopodobna c — największa przewidywana a b c X • Zalety rozkładu • łatwy do matematycznego przetwarzania • nadaje się do modelowania wszystkich rozkładów jednomodalnych • stanowi narzędzie porozumienia z osobami nie znającymi statystyki • wykorzystywany do symulacji komputerowej • Rozkład normalny • Zwany również rozkładem Gaussa lub krzywą dzwonową. Normalny — bo najczęściej spotykany (ludzie, przyroda, technika). Jest to rozkład jednomodalny dany równaniem xi
Matematyczne techniki zarządzania - 36 • Rozkład normalny jest dany dwoma parametrami: • wartością średnią m • odchyleniem standardowym • WARTOŚĆ ŚREDNIA DECYDUJE O PRZESUNIĘCIU WYKRESU W LEWO LUB PRAWO • ODCHYLENIE STANDARDOWE DECYDUJE O SMUKŁOŚCI WYKRESU punkt przegięcia Interpretacja rozkładu na przykładzie wzrostu mężczyzn m— m+ m bardzo niscy (mało) średni (dużo) bardzo wysocy (mało) TWIERDZENIE CENTRALNE Które zmienne zachowuję się według rozkładu normalnego? Te, które kształtują się pod wpływem wielu czynników, z których żaden nie ma charakteru dominującego. m=175 cm = 5 cm
Matematyczne techniki zarządzania - 37 Istota twierdzenia centralnego (niezależne regulatory) W przypadku wzrostu czynniki to: dziedziczność z różnych pokoleń, odżywianie, środowisko, choroby, warunki rodzinne itd. Aby rozwiązywać zadania z rozkładu normalnego, musimy korzystać z tablicy dystrybuanty. Tablica została przygotowana dla rozkładu znormalizowanego zmiennej standaryzowanej Z. 2,15% 34,13% 13,59% 0,13% X1 = 160 Z1 = -3 X2 = 165 Z2 = -2 ............. .......... X7 = 190 Z7 = +3 POWIERZCHNIA CAŁEGO POLA POD FUNKCJĄ GĘSTOŚCI RÓWNA SIĘ 1
Matematyczne techniki zarządzania - 38 Prawo trzech sigm: w przedziale od (m—3) do (m+3) (oś X) od —3 do +3 (oś Z) mieszczą się praktycznie wszystkie (99,74%) wartości zmiennej losowej o rozkładzie normalnym. • Tablice rozkładu normalnego • tablica funkcji gęstości • tablice dystrybuanty SKRYPT s.156 (tab. II) • tablica kwantyli (wartości krytycznych) SKRYPT s.156 (tab. IIa) • Tablica funkcji gęstości • służy do budowy wykresu funkcji gęstości (krzywej Gaussa) • do odczytu P(X a) lub P(Z a) f(Z) Proszę nie mylić tej tablicy z tablicami dystrybuanty; łatwo ją rozpoznać po wartości 0,3989!
Matematyczne techniki zarządzania - 39 • Tablice dystrybuanty (trzy rodzaje): • w przedziale z od —3 do +3: F(z) od 0 do 1 (cała funkcja) • w przedziale z od 0 do +3: F(z) od 0,5 do 1 (połowa funkcji) s.156 • w przedziale z od 0 do +3: F*(z) od 0 do 0,5 (F(z)—0,5)— najbardziej przydatna, bo pola są symetryczne po obu stronach 0 to samo pole F*(Z) Przy rozwiązywaniu zadań przechodzi się ze zmiennej X na zmienną Z, a następnie z powrotem na zmienną X:
Matematyczne techniki zarządzania - 40 Przykład 12. Agnieszka, wysoka studentka z WZ, jest na dyskotece wśród studentów N(175; 5). Odpowiedz, jakie jest prawdopodobieństwo, że napotka ona studenta o wzroście: a. około 180 cm b. niższym niż 180 cm c. wyższym niż 180 cm d. w granicach pomiędzy 172,5 i 182,5 cm e. w granicach pomiędzy 180 i 182,5 cm TO JEST MODEL! (a) x1=180 cm standaryzacja: z1=(180—175)/5=1 odczyt z tablicy f. gęstości: f(1)=0,2420 P(X 180)=24,2% m=175 cm =5 cm (a) (b) odczyt z tablicy dystrybuanty dla z1=1: F*(1)=0,3413 P(z<1)=0,5+0,3413=0,8413 P(X<180)=84,13% -3 -2 -1 0 1 2 3 Z STOSUJEMY TO SAMO ROZUMOWANIE, KTÓRE WYKORZYSTYWALIŚMY PRZY ZADANIACH Z ROZKŁADU PROSTOKĄTNEGO
Matematyczne techniki zarządzania - 41 (c) P(Z>1)=0,5—F*(1)=0,5 —0,3413=0,1587 P(X>180)=15,87% F*(1) (d) x1=182,5 cm, x2=172,5 cm z1=(182,5—175)/5=1,5 z2=(172,5—175)/5= —0,5 F*(1,5)=0,4332 F*(—0,5)=F*(+0,5)=0,1915 P(—0,5<Z<1,5)=0,1915+0,4332=0,6247 P(172,5<X<182,5)=62,47% (b) (c) F*(-0,5) F*(1,5) (e) x1=182,5 cm, x2=180 cm z1=(182,5—175)/5=1,5 z2=(180—175)/5=1 F*(1,5)=0,4332 F*(1)=0,3413 P(1<Z<1,5)=0,4332—0,3413=0,0919 P(180<X<182,5)=9,19% (d) (e)
Matematyczne techniki zarządzania - 42 Inne zadania tego typu w Skrypcie (s. 54, 72-74), rozkład normalny mają zmienne: błąd pomiaru, wskaźnik inteligencji, zysk z akcji, zużycie energii, trwałość urządzenia, czas wykonywania pracy, wielkość kredytu bankowego, wynagrodzenie pracowników. Przedział ufności, poziom ufności, poziom istotności Uliczka w Neapolu Przedział ufności jest to przedział, w którym z prawdopodobieństwem 1— znajduje się nieznana wartość zmiennej losowej. Poziom ufności (1—) jest to prawdopodo-bieństwo, że nieznana wartość zmiennej losowej znajduje się w przedziale ufności. Poziom istotności () jest to prawdopodo- bieństwo, że nieznana wartość zmiennej losowej nie znajduje się wewnątrz przedziału ufności. * • Rozpatrujemy prawdopodobieństwo przykrycia węzła przez prześcieradło: • przedział ufności (dg—gg) = szerokość prześcieradła • poziom ufności (1—) = szansa przykrycia węzła • poziom istotności() = szansa nieprzykrycia węzła • ustala statystyk • kluczowe w statystyce matematycznej • inne nazwy: margines błędu, poziom krytyczny
Matematyczne techniki zarządzania - 43 Przedział ufności dla rozkładu normalnego Przykład 12 cd. Agnieszka postanowiła odrzucić 10% krańcowo niskich i wysokich studentów jako nienadających się do tańca. Określ — jaki przedział wzrostu miała ona na myśli. Przedział dwustronny Odrzucamy 5% najniższych studentów i 5% najwyższych. • Przedział ufności może być: • dwustronny • lewostronny • prawostronny Przyjęliśmy =0,10, czyli /2=0,05, a tym samym (1—)=0,90. Należy znaleźć wartości zmiennej X tworzące stosowny przedział ufności (dg, gg). • Potrzebne do tego obliczenia są odwrotnością obliczeń wykonywanych poprzednio: • przedtem: znaliśmy zi, a szukaliśmy pola • teraz: znamy pole (1—)/2, a szukamy zi • zi= gg=—dg /2=5% /2=5% 1—=90% gg dg
Matematyczne techniki zarządzania - 44 • Szukanie wartości zi można wykonywać przy użyciu: • dowolnej tablicy dystrybuanty rozkładu normalnego • tablicy kwantyli (1—) SKRYPT s. 156 (tabl. IIa) • Mając (1—)/2 = 0,45, traktujemy tę wartość jako F*(zi) i odczytujemy z tablicy zi = 1,64. Następnie przechodzimy na zmienną X: studenci odrzuceni Przedział lewostronny Odrzucamy 10% najwyższych studen-tów. Odczytujemy dla F*(zi)=0,40 wartość zi = 1,28, co daje:
Matematyczne techniki zarządzania - 45 Przedział prawostronny Odrzucamy 10% najniższych studentów. Odczytujemy dla F*(zi)=0,40 wartość zi =—1,28, co daje: Trzy ważne wartości zi: 1,28; 1,64; 1,96 Rozkład logarytmiczno-normalny Jest to rozkład, który po zlogarytmowaniu zmiennej X staje się rozkładem normalnym. Służy do opisywania tych zjawisk, które oprócz wielu wartości małych i średnich mają również wartości bardzo duże (zanieczyszczenie środowiska, wydajność produkcji, wielkość złóż kopalin użytecznych itd.). f(X) Jednostki-giganty, które zglobalizo- wały gospodarkę światową: duże złoża węgla, ropy i gazu, wielkie zakłady produkcyjne itp. małe średnie duże bardzo duże X
Matematyczne techniki zarządzania - 46 Rozkład wykładniczy • Cechy rozkładu: • dużo wartości małych • mało wartości dużych • opisuje czas życia elementów nagle psujących się • brak pamięci f(X) X Przykład 13. Prowadząc studia literaturowe nad rozkładem wielkości złóż węglowodorów napotkałem na dziwny przypadek: źródła amerykańskie podawały, że jest to rozkład log-norm, a źródła rosyjskie — że rozkład wykładniczy. • Wnioski • chodzi o inne zbiory złóż • zbiór złóż handlowych • poszukiwania to gra w okręty (fazy I, II, III i IV) • zbiór złóż odkrytych jest próbką niereprezentacyjną ZSRR f(X) złoża nie- opłacalne USA USA po kryzysie III II IV I małe średnie duże bardzo duże X
Matematyczne techniki zarządzania - 47 • Inne pojęcia związane ze zmienną ciągłą • Asymetria f(X) f(X) dodatnia ujemna m>Me m<Me X X • Liczby losowe • Do wielu czynności używane są liczby losowe, np. do symulacji kompute-rowej. Źródła (generatory) liczb losowych: tablice, kalkulatory i kompu- tery. Klawisz RAN (random) kalkulatora daje: 0,813; 0,160; 0,208; 0,729, 0,305, 0,863; 0,440 itd. (liczby pseudolosowe). • Dodawanie niezależnych zmiennych losowych • Jeśli zmienne są niezależne (np. dochody dwu różnych sklepów), można sumować ich rozkłady: Można też odejmować: Odchyleń standardowych nie sumuje się!!!
Matematyczne techniki zarządzania - 48 • Wykres liściowy • Angielskie stem-and-leaf plots • Umożliwia szybkie analizowanie zjawisk • Przykład z oszustwem kasjerek • Wykres skrzynkowy • Angielskie box-and-whisker diagram (box plot) • Często stosowany do prezentacji danych • (płotki w odległości 1,5 różnicy pomiędzy kwartylami) Pł.1 Q1 Q3 Pł.2 Wyrz Me X • Przetwarzanie danych empirycznych w rozkład normalny • 1. Podzielenie danych xi na przedziały (liczebność 8-12, szerokość według nominałów monet i banknotów) • 2. Ustalenie liczebności empirycznych nie • 3. Przeliczenie liczebności na prawdopodobieństwa empiryczne pie • 4. Obliczenie parametrów moraz s • 5. Standaryzacja środków przedziałów 5 10 15 20 X
Matematyczne techniki zarządzania - 49 6. Wyznaczenie prawdopodobieństw teoretycznych pio 7. Wyliczenie liczebności teoretycznych nio 8. Ustalenie czy dwa rozkłady różnią się od siebie istotnie PRAWO WIELKICH LICZB Przykład 14. Rzucamy wielokrotnie dwoma monetami i rejestrujemy zmia-nę średniej liczby orłów na jeden rzut w miarę wzrostu liczby doświad-czeń. Wiemy, że wartość oczekiwana liczby orłów E(X) = 1. W miarę zwiększania liczby doświadczeń uzyskany wynik zbliża się coraz bardziej do prawdziwej wartości dla całej populacji
Matematyczne techniki zarządzania - 50 • Wnioski • każde takie badanie jest niepowtarzalne • badając próbkę można uzyskać przybli- żoną informację o całej populacji • zwiększanie ilości doświadczeń ponad pewną liczbę jest nieopłacalne, gdyż jest kosztowne a nie zwiększa wyraźnie stopnia poznania rzeczywistości • minimalna wielkość (liczebność) próbki wynosi 30 obserwacji • właściwą wielkość próbki dobiera się w zależności od błędu (SKRYPT s. 85) • nie można jednak zagwarantować na 100%, że badanie próbki da wynik zgodny z rzeczywistością • posługiwanie się próbką daje jednak cał- kiem inny pogląd na rzeczywistość niż po- jedyncze obserwacje • inaczej nasze pojedyncze obserwacje, a inaczej wielkie liczby (sąsiadka, bohaterka powieści Homo Faber M. Frischa) • na prawo wielkich liczb składa się szereg twierdzeń, m.in. nierówność Czebyszewa populacja próbka
Matematyczne techniki zarządzania - 51 Sposoby pobierania próbek statystycznych Próbka musi być pobrana w sposób losowy, tzn. każdy element populacji musi mieć jednakową szansę trafienia do próbki. • losowanie systematyczne • losowanie warstwowe • losowanie proporcjonalne • próbka reprezentatywna • próbka tendencyjna WNIOSKOWANIE STATYSTYCZNE Przedmiotem tego działu jest wyciąganie wniosków o rozkładzie i parame- trach populacji generalnej na podstawie badania próbki. Teoria estymacji zajmuje się szacowaniem parametrów populacji general- nej na podstawie próbki statystycznej. • Pojęcia z teorii estymacji • estymacja • estymator (estimator) • wartość oszacowana (estimate) • Rodzaje estymacji • punktowa • przedziałowa
Matematyczne techniki zarządzania - 52 Estymator jest to zmienna losowa, której realizacjami są wartości rozwa- żanego parametru powstałe przez pobranie z populacji bardzo wielu próbek. Wartość oszacowana jest to wartość danego parametru wyznaczona na pod- stawie jednej, rzeczywiście pobranej próbki. Estymator — jak każda zmienna — ma swoją wartość oczekiwaną i odchyle- nie standardowe. • Cechy dobrego estymatora • nieobciążony • zgodny (PWL) • najefektywniejszy (Vmin) CO MOŻE BYĆ PARAMETREM POPULACJI? Różne parametry — niektóre z nich już znamy (wartość średnia, odchylenie standardowe), inne poznamy później.
Matematyczne techniki zarządzania - 53 • ESTYMACJA WARTOŚCI ŚREDNIEJ POPULACJI • Celem jest ustalenie — ile wynosi nieznana wartość : • estymacja punktowa: = x • estymacja przedziałowa: budowa — wokół wartościx — przedziału ufności, w którym z prawdopodobieństwem 1— znajdzie się nieznane • Przykład 15. Zakładamy, że populacja generalna jest bardzo mała i składa się tylko z sześciu liczb: • 2, 3, 4, 5, 6, 7 • Parametry tej populacji: = 4,5 • 2 = 2,9167
Matematyczne techniki zarządzania - 54 Przyjmujemy liczebność próbki n=2 i przystępujemy do rozważania ile i jakich dwuelementowych próbek można pobrać — ze zwracaniem — z tej populacji. Próbek tych jest 36, tworzą one rozkład estymatora o następujących parametrach Powtarzając to samo dla n=3 i n=4, otrzymamy 2 = 2,9167 Mamy więc zależności
Matematyczne techniki zarządzania - 55 • oraz wnioski • średnia estymatora równa się średniej populacji • znamy wzór na błąd oszacowania średniej • gdy • Możemy teraz zbudować przedział ufności dla nieznanej średniej dla populacji przy dużej próbce: • jeśli znamy odchylenie standardowe populacji • jeśli nie znamy odchylenia standardowego populacji • Jak to wykorzystać w praktyce? • pobieramy próbkę, liczymy dla niej x oraz s • budujemy przedział ufności (dg, gg), w którym z prawdopodobieństwem 1— znajduje się nieznana wartość średniej dla populacji — o ile loso- wanie próbki nie było pechowe (np. „2, 2” lub „7, 7” w przykładzie 15)
Matematyczne techniki zarządzania - 56 • jeśli losowanie było pechowe, to nie- znane leży z szansą /2: • 1. albo poniżej dg • 2. albo powyżej gg • WIĘCEJ O NIEZNANEJ ŚREDNIEJ POPU- LACJI NIE POTRAFIMY POWIEDZIEĆ! • Szerokość przedziału ufności dla zależy od: • przyjętego poziomu istotności • wielkości próbki n • jej odchylenia standardowego s dg x gg ESTYMACJA PROPORCJI DLA POPULACJI Celem jest ustalenie — na podstawie badania próbki — jaka część populacji ma określoną cechę jakościową (niemierzalną), na przykład jaki ułamek (frakcja) wszystkich robotników przeszła szkolenie, jaka część studentów pracuje zawodowo itd. Ustala się proporcję p dla próbki i po przyjęciu określonego poziomu istot-nosci buduje się przedział ufności dla nieznanej proporcji dla populacji:
Matematyczne techniki zarządzania - 57 I tym razem szerokość przedziału jest zależna od przyjętego poziomu istot-ności oraz od błędu oszacowania proporcji sp, który z kolei jest funkcją wielkości próbki i jej proporcji. PRZEDZIAŁ UFNOŚCI DLA ŚREDNIEJ POPULACJI PRZY MAŁEJ PRÓBCE Stwierdzono, że w przypadku małej próbki estymator x zachowuje się we-dług rozkładu nieco odmiennego od rozkładu normalnego. Rozkład ten zos-tał utworzony przez Gosseta, który opublikował go pod pseudonimem Student. Stąd mamy rozkład Studenta Funkcja gęstości rozkładu t jest funkcją liczby stopni swobody Gdy dąży do , rozkład t dąży do rozkładu normalnego
Matematyczne techniki zarządzania - 58 • Różnica pomiędzy rozkładem Studenta i rozkładem normalnym • rozkład Studenta jest bardziej płaski, ma dłuższe ogony • rozkład Studenta jest określony tylko jednym parametrem • obok przedział dwustronny • może też być jednostronny • tablica rozkładu Studenta (SKRYPT s.157, tabl.III) nie poka- zuje ani funkcji gęstości, ani funk- cji dystrybuanty • pokazuje wartości t odpowiada- jące założonemu poziomowi istot- ności dla danych stopni swobody rozkład normalny z rozkład Studenta t =8 0 z/2 t/2()
Matematyczne techniki zarządzania - 59 Fragment tablicy rozkładu Studenta Przedział ufności dla średniej dla populacji przy małej próbce • wszystkie obliczenia przedziału ufności przeprowadza się tak jak w przykładzie 12 z Agnieszką • rozkład Studenta daje szersze przedziały ufności niż rozkład normalny, gdyż zabezpiecza nas przed skutkami pobrania mniejszej próbki • pobieżne obliczenia można zrobić biorąc dwa błędy oszacowania średniej (odpowiada to mniej więcej poziomowi istotności 5%)
Matematyczne techniki zarządzania - 60 Podsumowanie estymacji wartości średniej dla populacji