530 likes | 841 Views
Aplikovaná statistika 2. seminář. Popisná statistika. Jeden mrtvý je tragédie. Desítka mrtvých je masakr. Tisíce mrtvých je statistika. Základní pojmy : Statistický soubor - je množina všech prvků, které jsou předmětem daného statistického zkoumání.
E N D
Aplikovaná statistika2. seminář Popisná statistika Jeden mrtvý je tragédie. Desítka mrtvých je masakr. Tisíce mrtvých je statistika.
Základní pojmy: • Statistický soubor - je množina všech prvků, které jsou předmětem daného statistického zkoumání. Podle druhu hodnot dělíme sledované (statistické) znaky na: Kvantitativní a kvalitativní diskrétní spojité ordinální nominální
Intervalové třídění četností Na počet intervalů (tříd) a jejich délku neexistuje jednotný názor, ani obecný předpis. Používá se řada pravidel pro stanovení počtu tříd, z nichž uvedeme tzv. Yulesovo pravidlo Pro stanovení délky intervalu d se používá tzv. Sturgesovo pravidlo
Histogram a polygon Statistické grafy
Výsečový graf pomer = [1, 3, 7, 0.9, 0.5]; pie(pomer);
X1 = normrnd(5, 1, 100,1); X2 = normrnd(6, 1, 100,1); Boxplot([x1,x2],‘notch‘,‘on‘) • Krabičkový graf (vousatá krabička)
Situace, kdy 80% následků způsobuje 20 % příčin. Zdůraňuje fakt, že není nutné zabývat se všemi příčinami, nýbrž že pro dostatečný efekt stačí postihnout pouze nejdůležitější z nich. Např. seřadíme-li ve výrobě všechny příčiny zmetkovosti dle počtu jimi způsobených zmetků, zjistíme, že zhruba prvních 20 % příčin nám způsobuje zhruba 80 % všech zmetků, stačí se tedy obvykle zabývat jimi. • Paretův graf
Základní statistické charakteristiky úroveň x variabilita variační rozpětí rozptyl směrodatná odchylka variační koeficient průměrná odchylka míra variability hodnot kardinální proměnné variabilita hodnot kategoriální proměnné Střední hodnoty průměry ostatní střední hodnoty aritmetický geometrický kvadratický harmonický chronologický modus medián
Kvantily Kvantil je hodnota, která rozděluje soubor hodnot určitého statistického znaku na dvě části, jedna obsahuje ty hodnoty, které jsou menší (nebo stejné) než tento kvantil, druhá část naopak obsahuje hodnoty, které jsou větší (nebo stejné) než kvantil. zp je pořadové číslo jednotky, jejíž hodnota bude hledaný kvantil, n je počet pozorování, p udává relativní četnosti nižších hodnot, jejíž horní mez je hledaný kvantil, n1je kumulativní četnost jednotek ležících před kvantilovým intervalem, n2 je četnost intervalu, v němž leží hledaný kvantil, h je délka kvantilového intervalu, ap je hodnota, která tvoří dolní hranici kvantilového intervalu. Výpočet kvantilu z intervalového rozdělení: , kde
Medián, modus • Medián(padesátiprocentní kvantil), x̃50 - extrémní hodnoty, robustnost • Soubor: 20 20 20 20 20 20 30 30 35 35 70 84 95 Počet dat v souboru je 13, tedy liché číslo: medián je tudíž roven (13+1)/2=7 (sedmá hodnota uspořádané posloupnosti, tedy číslo 30) Soubor: 20 20 20 20 20 30 30 35 84 95 Počet dat v datovém souboru je 10, tedy sudé číslo: medián je tudíž roven (20+30)/2=25 • Modus(hodnota s nejvyšší četností) Soubor: 10 15 20 20 25 38 40 Nejvyšší četnost v tomto datovém souboru zastává hodnota 20.
Zjistíme pořadové číslo jednotek, z jejichž hodnot medián vypočteme Medián tedy leží v intervalu, který obsahuje prvek s pořadovým číslem 58,5. Z posledního sloupce tabulky, jenž obsahuje kumulativní součty, zjistíme, že nejbližší vyšší číslo, obsahující v sobě hodnotu z0,50 je 65. Hledaný medián bude tedy ležet v intervalu 7 401 – 7 800. Chceme-li znát konkrétní hodnotu mediánu, dosadíme do Odpověď: Střední mzda tedy činí 7 719,75.
Vahou např. četnost (ni) z rozdělení četností pro nespojitou proměnnou s k variantami hodnot Vážený aritmetický průměr Míry polohy Př.: Z následující tabulky vypočteme průměrnou tarifní třídu v souboru 75 provozních pracovníků. (Vážený aritmetický průměr) Průměrné tarifní zařazení provozních pracovníků je tedy 5,6.
uplatnění v případech, kdy hodnoty tvoří alespoň přibližně geometrickou řadu Geometrický průměr: analýza časových řad, výpočty tempa růstu atd. Příklad: Meziroční indexy cen jistého zboží jsou uvedeny v tabulce. Vypočítejte průměrný cenový index. (je tedy nutné vypočítat geometrický průměr)
Harmonický průměr Harmonický průměr z nenulových hodnot statistického souboru je definován jako podíl rozsahu souboru (počtu členů) a součtu převrácených hodnot znaků. Jinými slovy je to převrácená hodnota aritmetického průměru převrácených hodnot zadaných členů. Používá se, jsou-li hodnoty znaku nerovnoměrně rozloženy kolem aritmetického průměru, nebo když jsou hodnoty extrémně nízké či vysoké.
Př.: Z údajů v následující tabulce vypočítáme vážený harmonický průměr. Harmonický průměr se převážně používá v teorii indexů (výpočet průměrových tvarů souhrnných indexů)
Kvadratický průměr: Diskrétní verze kvadratického průměru je použita například při výpočtu směrodatné odchylky. Spojitý kvadratický průměr je použit při výpočtu efektivní hodnoty střídavého napětí nebo střídavého proudu.
Druh váženého průměru, užívaný ve statistice k výpočtu průměru z časových řad. Chronologický průměr
Prostý chronologický průměr: prostý chronologický průměrpři konstantní vzdálenosti mezi okamžiky měření
Vážený chronologický průměr: nestejné vzdálenosti mezi okamžiky o velikosti tw (pro vzdálenost mezi t–tým a (t–1) okamžikem).
xh xg x xk Pořadí jednotlivých typů průměrů vypočtených ze stejného souboru: Pro harmonický a geometrický průměr musí být všechny počítané hodnoty kladné. Vlastnosti aritmetického průměru: • Součet jednotlivých odchylek od průměru je nulový. • Aritmetický průměr konstanty je opět roven konstantě. • Přičteme-li k jednotlivým hodnotám znaku konstantu, zvýší se o tuto konstantu i aritmetický průměr. • Násobíme-li jednotlivé hodnoty znaku konstantou, je touto konstantou násoben i průměr. • Násobíme-li váhy aritmetického průměru konstantou, průměr se nezmění.
Další odhady polohy rozdělení • Useknutý (uřezaný) průměr - desetiprocentní uřezaný průměr - vynechá se 10% nejnižších výsledků - 10% nejvyšších výsledků - ze zbytku se počítá průměr. - volí se 5%, 10% nebo 25% - robustní • Polosuma- citlivá na odlehlé hodnoty
Míry absolutní variability Variační rozpětí Rozptyl Směrodatná odchylka Interkvartilové rozpětí Kvartilová odchylka • Kvartilová odchylka je tedy průměrem kladných sousedních kvartilů. (výběrový) nebo
Vlastnosti rozptylu: • Rozptyl konstanty je roven nule. • Přičteme-li ke všem hodnotám znaku konstantu, rozptyl se nezmění. • Násobíme-li všechny hodnoty znaku konstantou, rozptyl je násoben čtvercem této konstanty. • Rozptyl součtu (rozdílu) dvou proměnných, kde je roven součtu rozptylů obou proměnných zvětšenému (+) nebo zmenšenému (-) o dvojnásobek tzv. kovariance, tj. • Předpokládejme, že statistický soubor o rozsahu n statistických jednotek je rozdělen do k dílčích podsouborů, kde známe dílčí rozptyly, dílčí průměry a četnosti i-tého podsouboru ni. Potom rozptyl celého souboru je dán součtem rozptylu dílčích (skupinových) průměrů a průměru z dílčích (skupinových) rozptylů.
Míry relativní variability • Variační koeficient • Relativní kvartilové odchylky • Relativní decilové odchylky • Relativní percentilové odchylky
Charakteristiky šikmosti a špičatosti Šikmost • jak jsou hodnoty symetricky či asymetricky rozloženy kolem středu naměřených hodnot • Symetrické - koeficient nula • sešikmení k vyšším hodnotám - koeficient kladný • sešikmení k nižším hodnotám - koeficient záporný • Asymetrických rozdělení - pořadí průměru, mediánu a modu • sešikmení k vyšším hodnotám < x̃50 < x • sešikmení k nižším hodnotám > x̃50 > x koeficient šikmosti
Špičatost • jak je rozdělení špičaté (strmé) nebo naopak ploché • koeficient špičatosti: normální (Gausovo) rozdělení vychází β=3
Úvod do teorie pravděpodobnosti • Házení hrací kostkou, • statistické průzkumy, • otázky spojené s řízením jakosti, • čekání na obsluhu. statistická klasická Definice pravděpodobnosti náhodného jevu geometrická axiomatická
Základní pojmy Náhodný jev • jev, který za daných podmínek nastat může a nemusí; jeho nastání je věc náhody • výsledek náhodného pokusu • je to výchozí pojem počtu pravděpodobnosti a označujeme ho A, B, C, … Jev jistý • jev, který za daných podmínek nastane vždy Jev nemožný • jev, který za daných podmínek nastat nemůže Elementární náhodný jev • jev, který se nedá dále rozdělit na podrobnější jevy • konečný jev
Operace s náhodnými jevy • Jestliže při každé realizaci jevu A nastává i jev B, pak říkáme, že jev A má za následek jev B neboli jev A je částí jevu B. A B • Jevy A a B jsou rovnocenné, jestliže pokaždé, kdy nastal jev A, nastal také jev B a naopak. A = B • Jev spočívající v nastoupení jak jevu A, tak jevu B nazýváme průnikem jevů A a B. A B (A * B) • Jev spočívající v nastoupení alespoň jednoho z jevů A a B nazýváme sjednocení jevů A a B. A B (A + B) • Rozdílem jevů A a B nazýváme jev spočívající v nastoupení jevu A a současném nenastoupení jevu B. A - B • Jev, který spočívá v nenastoupení jevu A, je jevemopačným k jevu A. • Jevy A a B se nazývají neslučitelné, jestliže výskyt jednoho z nich bude vylučovat možnost výskytu druhého jevu, tj. jejich průnik je jev nemožný. A B =
Definice pravděpodobnosti Klasická definice pravděpodobnosti • Podle klasické definice pravděpodobnosti nastání jevu A je dáno poměrem m ku n, kde m je počet všech situací příznivých jevu A a n je počet všech možných situací, přičemž n musí být konečné číslo a předpokládá se, že každá z celkového počtu situací má stejnou šanci nastat.
Uvažujme tabulku četností a relativních četností stáří 40 studentů v jednom ročníku na nějaké univerzitě. Předpokládejme, že jsme vybrali jednoho studenta náhodně, míněno tím, že každý student měl stejnou možnost, že bude vybrán. a) Určete pravděpodobnost, že náhodně vybranému studentovi je 20 let. Řešení: Z druhého řádku tabulky je vidět, že 7 ze 40 studentů je ve věku 20 let. Tudíž je šance 7 ku 40, že náhodně vybranému studentovi bude 20 let. Pravděpodobnost je tudíž počet 20 let starých studentů/celkový počet studentů = 7/40 Všimněme si, že pravděpodobnost, že náhodně vybranému studentovi je 20 let, je stejná jako relativní četnost studentů, kterým je 20 let (7/40 = 0,175). b) Určete pravděpodobnost, že náhodně vybraný student bude mladší než 21 let. Řešení: Z tabulky je vidět, že 18 (2+9+7) studentům je méně než 21 let. Takže f = 18 a pravděpodobnost je rovna .
Statistická definice pravděpodobnosti • V některých případech není splněn základní požadavek klasické definice pravděpodobnosti, tj. předpoklad stejné možnosti všech jevů. • U statistické definice je pravděpodobnost nastání jevu A přibližně rovna poměru m / n, přičemž m je počet situací, v nichž reálně nastal jev A a n je počet všech uskutečněných pokusů. Př.: pravděpodobnost narození syna • dle klasické definice: 50 % • dle statistické definice: 52 % (rodí se více mužů)
Pravidla pro počítání s pravděpodobností Náhodné jevy neslučitelné (nemohou nastat současně) P(A B) = 0 … průnik P(A B) = P(A) + P(B) … sjednocení slučitelné • nezávislé … s opakováním • P(A B) = P(A) * P(B) … průnik • P(A B) = P(A) + P(B) - P(A B) … sjednocení • závislé … bez opakování P(A B) = P(A) * P(B/A) … průnik nebo = P(B) * P(A/B) P(A B) = P(A) + P(B) - P(A B) … sjednocení
Jevy nezávislé • jevy A a B jsou nezávislé, jestliže pravděpodobnosti nastoupení nebo nenastoupení jednoho z jevů neovlivňuje pravděpodobnost nastoupení nebo nenastoupení jevu druhého Jevy závislé • nastoupení jevu A ovlivňuje jevy další
Průzkum sledovanosti televizního pořadu Aréna manželskými páry ukázal, že pravidelně tento pořad sleduje 30% všech manželek a 50% všech manželů. Zároveň se ukázalo, že tento pořad sleduje 18% manželských párů. Náhodně vybereme manželský pár. Jaká je pravděpodobnost, že pořad bude sledovat alespoň jeden z manželů. Řešení: Označme A = [pořad sleduje manželka] a B = [pořad sleduje manžel]. Ze zadání příkladu plyne, že P(A) = 0,30 a P(B) = 0,50 a P(A ∩ B) = 0,18. Je zřejmé, že jev [pořad sleduje alespoň jeden z manželů] je roven sjednocení jevů A a B. Podle vzorce pro výpočet pravděpodobnosti sjednocení dvou jevů dostaneme Tudíž pravděpodobnost, že náhodně vybraný manželský pár sleduje TV pořad Aréna, je rovna 0,62.
Podmíněná pravděpodobnost Náhodný jev určujeme vždy k určitým podmínkám. Nejsou-li na výskyt daného jevu A kladeny žádné další podmínky, potom pravděpodobnost P(A) jevu A označujeme jako nepodmíněnou pravděpodobnost. Pokud se jev A může vyskytnout pouze tehdy, vyskytl-li se jev B, jehož pravděpodobnost je P(B) > 0, pak hovoříme o podmíněné pravděpodobnosti jevu A a označujeme ji P(A | B). Při P(B) > 0 lze pravděpodobnost jevu A, která je podmíněna výskytem jevu B vyjádřit jako Máme-li náhodné jevy A1,A2,...,An, pak pravděpodobnost jejich průniku je Speciálním případem tohoto vztahu je pravděpodobnost průniku dvou jevů A,B, tedy pravděpodobnost, že jevy A,B nastanou současně. Podle tohoto vztahu je tato pravděpodobnost rovna součinu pravděpodobnosti jednoho jevu a podmíněné pravděpodobnosti jevu druhého, tzn.
Hodíme-li jedenkrát pravidelnou hrací kostkou, pak může nastat 6 stejně možných výsledků, tj. • Nechť A = [padne číslo 5] a L = [padne liché číslo]. Určete následující pravděpodobnosti: a) Pravděpodobnost, že padlo číslo 5. b) Podmíněnou pravděpodobnost, že padne číslo 5, za podmínky, že padlo liché číslo. • Řešení: • Vzhledem k tomu, že je šest možných výsledků při hodu jednou kostkou a jev A nastane jen pokud padne číslo 5, je b) V tomto případě nastal jev L, že padlo liché číslo, tudíž už není šest možných výsledků, ale pouze 3 možné výsledky. Prostor elementárních jevů je nyní Tudíž podmíněná pravděpodobnost je Porovnáme-li tuto pravděpodobnost s pravděpodobností vypočtenou v a) vidíme, že to znamená, víme-li, že padlo liché číslo, pak to má vliv na pravděpodobnost, že padne číslo 5.
Formule úplné pravděpodobnosti a Bayesův vzorec formule úplné pravděpodobnosti V případě, že jsou známy nejen nepodmíněné pravděpodobnosti P(Bi) a podmíněné pravděpodobnosti P(A/Bi), ale je také známo, že výsledkem pokusu je nastoupení jevu A, lze podmíněné pravděpodobnosti P(Bi/A) vypočítat pomocí Bayesova vzorce, který vyplývá z věty o násobění pravděpodobností a z formule úplné pravděpodoobnosti pro i = 1, 2, …, n.
Příklad: Je známo, že 90% výrobků odpovídá standardu. Byla vypracována zjednodušená kontrolní zkouška, která u standardního výrobku dá kladný výsledek s pravděpodobností 0,95, zatímco u výrobku nestandardního s pravděpodobností 0,20. Jaká je pravděpodobnost, že výrobek, u něhož zkouška dopadla kladně je standardní?