800 likes | 1.1k Views
Přednáška 6. Výběrové charakteristiky, Úvod do teorie odhadu Výběrové charakteristiky parametry populace vs. výběrové charakteristiky limitní věty další rozdělení pravděpodobnosti ( Pearsonovo , Studentovo, Fisher-Snedecorovo ) Úvod do teorie odhadu bodové odhady vs. intervalové odhady
E N D
Přednáška 6 Výběrové charakteristiky, Úvod do teorie odhadu • Výběrové charakteristiky • parametry populace vs. výběrové charakteristiky • limitní věty • další rozdělení pravděpodobnosti (Pearsonovo, Studentovo, Fisher-Snedecorovo) • Úvod do teorie odhadu • bodové odhady vs. intervalové odhady • vlastnosti bodových odhadů • intervalové odhady • jednovýběrové • rozdílů, resp. podílů, parametrů dvou populací
Výběrové charakteristiky • Parametry populace (obvykle pro jejich značení používáme symboly řecké abecedy) jsou konstanty. • Charakteristiky výběru (obvykle značíme latinkou) jsou obvykle různé – v závislosti na pořízeném výběru. Jsou to náhodné veličiny.
Variabilita výběrových charakteristik Variabilitu výběrových charakteristik ovlivňují tři faktory: • rozsah populace , • rozsah výběru , • způsob získání náhodného výběru. Je-li rozsah populace mnohem větší než rozsah výběru , pak variabilita výběrových charakteristik je obvykle zhruba stejná jak pro výběry s opakováním, tak pro výběry bez opakování.
Rozdělení výběrového průměru • V appletu Rozdělení průměru (java) sledujte vliv rozdělení populace a rozsahu výběru na rozdělení průměru. • Vlastnosti výběrového průměru
Limitní větyaneb popis pravděpodobnostních modelů pro případ rostoucího počtu realizací náhodného pokusu
Slabý zákon velkých čísel Mějme nekonečný náhodný výběr z rozdělení se střední hodnotou a konečným rozptylem, kde jsou nekorelované náhodné veličiny. Potom platí, že výběrový průměr vypočítaný z prvních n pozorování se pro blíží ke střední hodnotě , což zapisujeme .
Centrální limitní věta Jsou-li nezávislé náhodné veličiny se stejnou střední hodnotou a se stejným konečným rozptylem, pak výběrový průměr má při dostatečně velkém počtu pozorování přibližně normální rozdělení, ať už pocházejí z libovolného rozdělení. Centrální limitní větu zapisujeme nebo . • Předpoklady CLV: • nezávislé náhodné veličiny , • , • ; , • (v praxi, , výběr neobsahuje odlehlé pozorování).
Centrální limitní věta • Vlastnosti výběrového průměru Vliv rozsahu výběru na graf hustoty pravděpodobnosti výběrového průměru
Životnost elektrického holicího strojku EHS má exponenciální rozdělení se střední hodnotou 2 roky. Určete pravděpodobnost, že průměrná životnost 150 prodaných holicích strojků EHS bude vyšší než 27 měsíců. Řešení: … průměrná životnost 150 holících strojků EHS , tj.
Důsledky centrální limitní věty (1) • Rozdělení součtu náhodných veličin Nechť: • nezávislé náhodné veličiny , • , • ; , • (v praxi, , výběr neobsahuje odlehlé pozorování), pak .
Výletní člun má nosnost 5000kg. Hmotnost cestujících je náhodná veličina se střední hodnotou 70kg a směrodatnou odchylkou 20kg. Kolik cestujících může člunem cestovat, aby pravděpodobnost přetížení člunu byla menší než 0,001? Řešení: … celková hmotnost n cestujících > >… řešení je dokončeno v Úvod do statistiky, str. 72-73.
Důsledky centrální limitní věty (2) p Důkaz: • Nechť , pak. • Dle CLV: , tj. . Relativní četnost p má pro dostatečně velké výběry přibližně normální rozdělení s parametry . Výběry považujeme obvykle za dostatečně velké v případě, že .
Rozdíl průměrů Mějme náhodný výběr z rozdělení se střední hodnotou a náhodný výběr z rozdělení se střední hodnotou . Dále nechť jsou splněny následující předpoklady: • Rozsah každé z populací je dostatečně velký vzhledem k rozsahu příslušného výběru . • Platí předpoklady CLV, zejména to, že každý z výběrů pochází z normálního rozdělení nebo je dostatečně velký (za dostatečně velké obvykle považujeme výběry s rozsahem větším než 30). Pak: • . Dokažte!
Rozdíl relativních četností Výběrový průměr vypočítaný z prvních pozorování náhodného výběru z udává relativní četnost jevu Aa značíme ji . Obdobně vypočítaný z prvních pozorování náhodného výběru z udává relativní četnost jevu B a značíme ji . Dále nechť: • Rozsah každé z populací je dostatečně velký vzhledem k rozsahu příslušného výběru . • Výběry z obou populací jsou dostatečně velké na to, aby pro modelování rozdílu mezi relativními četnostmi mohlo být použito normální rozdělení. Výběry jsou obvykle považovány za dostatečně velké v případě, že . Pak: • . Dokažte!
Spojitá rozdělení náhodné veličinymající využití v metodách statistické indukce
K čemu potřebujeme znát výběrová rozdělení? • Výběrová rozdělení nacházejí uplatnění při odhadech střední hodnoty a pravděpodobnosti, resp. jejich rozdílů nebo při testování hypotéz o těchto parametrech. Při odhadech rozptylu, poměru rozptylů, odhadech střední hodnoty v případě, že máme k dispozici pouze malý výběr, který nepochází z normálního rozdělení, a v dalších metodách statistické indukce nacházejí uplatnění tři důležitá spojitá rozdělení: • - rozdělení, • Studentovo rozdělení, • Fisher– Snedecorovorozdělení.
- rozdělení (Pearsonovo rozdělení) Mějme nezávislé náhodné veličiny , z nichž každá má normované normální rozdělení. Součet čtverců těchto náhodných veličin, tj. náhodná veličina má rozdělení (čteme „chí-kvadrát“) s stupni volnosti, což značíme . , pak Sledujte vliv stupňů volnosti na tvar rozdělení NV s rozdělením , její střední hodnotu a rozptyl. (Spojitá rozdělení – excel)
- rozdělení (Pearsonovo rozdělení) Mějme nezávislé náhodné veličiny , z nichž každá má normované normální rozdělení. Součet čtverců těchto náhodných veličin, tj. náhodná veličina má rozdělení (čteme „chí-kvadrát“) s stupni volnosti, což značíme . , pak Vlastnosti - rozdělení: • ; . Pro • Předpokládejme, že provedeme náhodný pokus spočívající v náhodném výběru o rozsahu n z populace podléhající normálnímu rozdělení s rozptylem . Pro uvedený výběr určíme výběrovou směrodatnou odchylku s. Lze ukázat, že :
- rozdělení (Pearsonovo rozdělení) Mějme nezávislé náhodné veličiny , z nichž každá má normované normální rozdělení. Součet čtverců těchto náhodných veličin, tj. náhodná veličina má rozdělení (čteme „chí-kvadrát“) s stupni volnosti, což značíme . , pak Použití - rozdělení: • Vlastnosti, žese využívá k testování toho, zda rozptyl základního souboru s normálním rozdělením je roven , resp. k odhadování směrodatné odchylky ZS s norm. rozdělením. • - rozdělení se používá pro ověření nezávislosti kategoriálních proměnných (test nezávislosti v kontingenční tabulce). • Pokud testujeme, zda náhodné veličiny (naměřená data) pocházejí z určitého rozdělení, můžeme také s úspěchem použít - rozdělení. Tento test je znám pod názvem "test dobré shody".
Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Pro ověřování kvality výroby bude testováno 20 žárovek. Jaká je pravděpodobnost, že při tomto testu bude zjištěna směrodatná odchylka životnosti vyšší než 7 měsíců? Řešení: S … výběrová směrodatná odchylka Neznáme rozdělení S! ALE! Nechť . Pak . V našem případě: S využitím výpočetního appletu vybrana_rozdeleni_pravdepodobnosti.xlsx.
Studentovo (t) rozdělení Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T, , má Studentovo t rozdělení s stupni volnosti, což značíme . Sledujte vliv stupňů volnosti na tvar rozdělení NV s rozdělením , její střední hodnotu a rozptyl. (Spojitá rozdělení – excel)
Studentovo (t) rozdělení Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T, , má Studentovo t rozdělení s stupni volnosti, což značíme . Vlastnosti Studentova rozdělení: • ; . Pro • Pokud náhodné veličiny X1,X2,...,Xn mají normální rozdělení a jsou navzájem nezávislé, pak náhodná veličina .
Studentovo (t) rozdělení Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T, , má Studentovo t rozdělení s stupni volnosti, což značíme . Vlastnosti Studentova rozdělení: • Mějme dva výběry z normálního rozdělení se stejným rozptylem. Pak .
Studentovo (t) rozdělení Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T, , má Studentovo t rozdělení s stupni volnosti, což značíme . Vlastnosti Studentova rozdělení: • Mějme dva výběry z normálního rozdělení s různýmirozptyly. Pak kde .
Studentovo (t) rozdělení Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T, , má Studentovo t rozdělení s stupni volnosti, což značíme . Vlastnosti Studentova rozdělení: • Mějme dva výběry z normálního rozdělení s různýmirozptyly. Pak kde .
Studentovo (t) rozdělení Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T, , má Studentovo t rozdělení s stupni volnosti, což značíme . Použití Studentova rozdělení: • modelování založené na analýze malýchvýběrů, • testování hypotéz o střední hodnotě, pokud je rozptyl základního souboru neznámý a výběr pochází z normálního rozdělení, • testování hypotéz o shodě středních hodnot, • analýza výsledků regresní analýzy.
Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.) Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit) Jak na to? Nechť X je NV, jejíž rozdělení známe. Pak . Zvolíme-li , pak
Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.) Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit) Jak na to? Nechť . Po dosazení: , kde je p-kvantil Studentova rozdělení s (n-1) stupni volnosti.
Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.) Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit) Po dosazení: , kde je p-kvantil Studentova rozdělení s (n-1) stupni volnosti. (Uvědomte si, že .) Po úpravě: Po dosazení:
Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.) Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit) Po dosazení: , kde je p-kvantil Studentova rozdělení s (n-1) stupni volnosti. (Uvědomte si, že .) Po úpravě: Po dosazení:
Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.) Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit) S pravděpodobností 95% se hledaná střední hodnota životnosti žárovek pohybuje v rozmezí 921,7h až 978,3h.
Fisher-Snedecorovo (F) rozdělení Mějme dvě nezávislé náhodné veličiny V a W s rozdělením . První z nich má počet stupňů volnosti m, druhá má počet stupňů volnosti n (obecně mají různý počet stupňů volnosti). Pak má náhodná veličina Fisherovo-Snedecorovorozdělení o m a n stupních volnosti, což značíme . Sledujte vliv stupňů volnosti na tvar rozdělení NV s rozdělením, její střední hodnotu a rozptyl. (Spojitá rozdělení – excel)
Fisher-Snedecorovo (F) rozdělení Mějme dvě nezávislé náhodné veličiny V a W s rozdělením . První z nich má počet stupňů volnosti m, druhá má počet stupňů volnosti n (obecně mají různý počet stupňů volnosti). Pak má náhodná veličina Fisherovo-Snedecorovorozdělení o m a n stupních volnosti, což značíme . Vlastnosti Fisherova-Snedecorova rozdělení: • Mějme dva výběry z normálního rozdělení( a jsou příslušné výběrové rozptyly.Pak
Fisher-Snedecorovo (F) rozdělení Mějme dvě nezávislé náhodné veličiny V a W s rozdělením . První z nich má počet stupňů volnosti m, druhá má počet stupňů volnosti n (obecně mají různý počet stupňů volnosti). Pak má náhodná veličina Fisherovo-Snedecorovorozdělení o m a n stupních volnosti, což značíme . Použití Fisherova-Snedecorova rozdělení: • k testu o shodě rozptylů dvou základních souborů, • k testům o shodě středních hodnot více než dvou základních souborů, v tzv. analýze rozptylu, • k testům v regresní analýze.
Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Uvedené informace specifikujeme: Žárovky jsou vyráběny na dvou linkách. Předpokládejme, že obě linky mají srovnatelné parametry, tj. že průměrná životnost a variabilita životnosti žárovek Ed vyrobených ve firmě Edison nezávisí na tom, na jaké lince byly vyrobeny. Pro ověření kvality výroby bude testována životnost 20 žárovek z linky 1 a 30 žárovek z linky 2. Jaká je pravděpodobnost, že u vzorku z linky 1 bude zjištěn více než dvojnásobný rozptyl oproti rozptylu zjištěnému u vzorku z linky 2? Řešení: … rozptyl životnosti zjištěný u vzorku z linky 1 … rozptyl životnosti zjištěný u vzorku z linky 2 Za předpokladu, že oba vzorky jsou výběrem z normálního rozděleníplatí
Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Uvedené informace specifikujeme: Žárovky jsou vyráběny na dvou linkách. Předpokládejme, že obě linky mají srovnatelné parametry, tj. že průměrná životnost a variabilita životnosti žárovek Ed vyrobených ve firmě Edison nezávisí na tom, na jaké lince byly vyrobeny. Pro ověření kvality výroby bude testována životnost 20 žárovek z linky 1 a 30 žárovek z linky 2. Jaká je pravděpodobnost, že u vzorku z linky 1 bude zjištěn více než dvojnásobný rozptyl oproti rozptylu zjištěnému u vzorku z linky 2? Řešení: … rozptyl životnosti zjištěný u vzorku z linky 1 … rozptyl životnosti zjištěný u vzorku z linky 2 Za předpokladu, že oba vzorky jsou výběrem z normálního rozděleníplatí
Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Uvedené informace specifikujeme: Žárovky jsou vyráběny na dvou linkách. Předpokládejme, že obě linky mají srovnatelné parametry, tj. že průměrná životnost a variabilita životnosti žárovek Ed vyrobených ve firmě Edison nezávisí na tom, na jaké lince byly vyrobeny. Pro ověření kvality výroby bude testována životnost 20 žárovek z linky 1 a 30 žárovek z linky 2. Jaká je pravděpodobnost, že u vzorku z linky 1 bude zjištěn více než dvojnásobný rozptyl oproti rozptylu zjištěnému u vzorku z linky 2? Řešení: … rozptyl životnosti zjištěný u vzorku z linky 1 … rozptyl životnosti zjištěný u vzorku z linky 2 (dle vybrana_rozdeleni_pravdepodobnosti.xlsx) Za předpokladu, že oba vzorky jsou výběrem z normálního rozděleníplatí
Lze určit střední hodnotu životnosti el. součástek? Lze určit účinnost léku? Lze určit, který výrobce vyrábí kvalitněji? Neznáme-li rozdělení náhodné veličiny X, pak parametry náhodné veličiny X nelze většinou přesně určit, lze je jen odhadnout.
Jak odhadnout parametry populace? • Bodový odhad - parametr základního souboru aproximujeme jediným číslem • Intervalový odhad – parametr populace aproximujeme intervalem, v němž s velkou pravděpodobností příslušný populační parametr leží.
Bodový odhad Mějme náhodný výběr z určitého rozdělení, které závisí na neznámém parametru . Odhadem parametru je pak výběrová charakteristika , která nabývá hodnot „blízkých“ neznámému parametru . Vybrané populační parametry a jejich bodové odhady: konstanty obecně značíme náhodné veličiny obecně značíme
Vlastnosti „dobrého“ bodového odhadu • nestrannost (nevychýlenost, nezkreslenost) • odhad je nestranný, jestliže se jeho střední hodnota rovná hledanému parametru, tj. (viz příklad 4.1, Úvod do statistiky) • vydatnost (eficience) • nestranný odhad, jehož rozptyl je nejmenší mezi rozptyly všech nestranných odhadů příslušného parametru, se nazývá nejlepší nestranný (vydatný, eficientní) odhad • konzistence • odhad je konzistentní, pokud se s rostoucím rozsahem výběru zpřesňuje, k čemuž dochází pokud,, tj. pokud se rozdělení odhadu T s rostoucím rozsahem výběru „zužuje“ kolem hledaného parametru .
Interval spolehlivosti vs. intervalový odhad Interval spolehlivosti(konfidenční interval) pro parametr se spolehlivostí , kde , je taková dvojice statistik , že . Intervalový odhad je jednou z realizací intervalu spolehlivosti. V čem spočívá výhoda intervalových odhadů vůči bodovým odhadům? Přinášejí informaci o nejistotě (nepřesnosti) odhadu.
Co je co v terminologii intervalových odhadů? hledaný parametr (konstanta, kterou nejsme schopni přesně určit) spolehlivost odhadu, tj. pravděpodobnost s níž hledaný parametr leží v intervalu meze intervalu spolehlivosti (náhodné veličiny)
Co to znamená, že spolehlivost odhadu je 1-? Simulace intervalových odhadů střední hodnoty (spolehlivost 0,95) získaných na základě opakovaných výběrů o rozsahu 30 z populace se střední hodnotou 100. 6 intervalů ze 100 neobsahuje skutečnou střední hodnou.
Jaké máme požadavky na interval spolehlivosti? • Co největší spolehlivost odhadu. • Co nejmenší šířka intervalu spolehlivosti. (S rostoucí šířkou intervalového odhadu klesá významnost získané informace.) V appletu Intervalové odhady (jar) sledujte vliv spolehlivosti odhadu a rozsahu výběru na intervalový odhad. Závěr: • S rostoucí spolehlivostí se zvětšuje šířka intervalového odhadu a tím klesá významnost takto získané informace. Nutnost kompromisu • S rostoucím rozsahem výběru se šířka intervalového odhadu snižuje. hladina významnosti
Jaké jsou typy intervalů spolehlivosti? • oboustranné Tyto dvě podmínky zaručují, že. • jednostranné(odhadujeme-li například délku života nějakého zařízení, je pro nás důležitá pouze dolní mez) • levostranné: • pravostranné :
Jak najít intervalový odhad parametru Obecně: • Zvolíme vhodnou výběrovou charakteristiku , jejíž rozdělení známe. (Nechť jsou p-kvantily náhodné veličiny .) , . Vždyť jsme již něco takového počítali! (str. 27-30 této prezentace)