320 likes | 541 Views
Štatistická indukcia – Výberové skúmanie. Štatistické zisťovanie môžeme robiť buď ako vyčerpávajúce (úplné) alebo výberové (neúplné) .
E N D
Štatistická indukcia – Výberové skúmanie
Štatistické zisťovanie môžeme robiť buď ako vyčerpávajúce (úplné) alebo výberové (neúplné). Úplné zisťovanie predpokladá, že vyšetrujeme všetky štatistické jednotky konečného štatistického súboru a zároveň existuje možnosť získať požadované informácie o každej jednotke, ktorá patrí do základného súboru. Závery získané z vyčerpávajúceho zisťovania platia deterministicky. Ak nie je možné splniť tieto predpoklady používa sa výberové zisťovanie, kedy skúmame len jednotky vybrané do výberového súboru a pomocou nich robíme úsudky o základnom súbore. Závery výberového šetrenie platia pre výberový súbor deterministicky, ale ak pomocou nich robíme úsudky o celom základnom súbore výsledky majú pravdepodobnostný charakter.
Akchceme vedieť ako chutí víno, uložené v hektolitrovom sude, nemusíme vypiť celý sud. Stačí malý „dúšok“ k posúdeniu jeho kvality…. Ak chceme zistiť, či náklad orechov v nákladnom aute je z veľkej časti pokazený, stačí keď vyberieme pár orechov z rôznych miest nákladu a rozlúskneme ich… Ak chceme vedieť aká je vlhkosť obilia na vlečke nemusíme merať vlhkosť celej vlečky ale náhodným spôsobom zoberieme niekoľko vzoriek z rôznych miest ...
Pri výberovom zisťovaní teda neskúmame všetky jednotky základného súboru, ale iba ich časť, ktorá musí byť schopná poskytnúť informácie o základnom súbore tj. je reprezentatívna. Je potrebné si uvedomiť, že nie každý výber je reprezentatívny .
Úlohy výberového zisťovaniamožno rozdeliť do dvoch základných skupín: 1. teória odhadu, kedy odhadujeme charakteristiky základných súborov pomocou výberových údajov. 2. testovanie hypotéz, kedy o základnom súbore vytvárame určité hypotézy a overujeme ich platnosť. Okrem základných úloh riešime aj dve pomocné (sprievodné) úlohy, ktoré sú vždy súčasťou základných úloh: 1. otázky spojené s vytváraním výberových súborov 2. určenie teoretických rozdelení charakteristík, získaných z výberových súborov.
Príklady výberového skúmania • Štatistika rodinných účtov, • kontrola kvality • marketingový prieskum spotrebiteľských zvyklostí… • výberové skúmanie u podnikov vybraného sektora, • prieskum verejnej mienky …
Podstata výberového skúmania a základné pojmy Označenie: parametre základného súboru: , 2, , N všeobecne G charakteristiky výberového súboru: všeobecne un Výberový súbor, rozsah n Základný súbor, rozsah N, resp.
Kvantifikácia rizík rôznych výrokov aleboúsudkov o základnom súbore na základe výberových údajov je možná, ak sa jednotky zo základného súboru vyberajú náhodne. Náhodným výberombudeme rozumieť taký výber, kedy každá jednotka základného súboru má rovnakú pravdepodobnosť, že bude vybraná. Tento predpoklad umožňuje využívať teóriu pravdepodobnosti ku kvantifikácii rizika omylu a tak hodnotiť presnosť a spoľahlivosť získaných výsledkov. Induktívne usudzovanie pomocou matematicko – štatistických metód sa nazýva štatistická indukcia (= zovšeobecňovanie).
Náhodný a zámerný výber • Náhodný výberje taký výber štatistických jednotiek zo základného súboru, kedy o tom či bude jednotka zaradená do výberu rozhoduje len náhoda. • Náhodný výber môže byť realizovaný rôznymi spôsobmi. • Najjednoduchším typom náhodného výberu je jednoduchý náhodný výber, kedy jednotky vyberáme priamo z netriedeného základného súboru a každá jednotka má pritom rovnakú možnosť, že bude vybraná. • Jednoduchý náhodný výber môžeme prakticky realizovať dvoma spôsobmi: • výber s opakovaním, kedy vybraná jednotka zostáva v zozname jednotiek a môže byť ešte znovu vybraná do výberu. • výber bez opakovania, kedy vybraná jednotka nezostáva po vybratí v zozname, tzn.: do výberu môže byť zaradená len raz.
Okrem jednoduchého náhodného výberu sa často používajú aj niektoré zložitejšie typy náhodného výberu. Jedná sa najmä o oblastnýalebostratifikovaný výber a viacstupňový výber. Princíp oblastného výberu spočíva v tom, že základný súbor roztriedime podľa určitého hľadiska do oblastí (skupín alebo strat ) a v jednotlivých skupinách sa urobia náhodné výbery jednotiek. Ak sa v každej skupine vyberá rovnaké množstvo jednotiek hovoríme o oblastnom proporcionálnom výbere . Pri viacstupňovom výbere je samotný proces výberu rozdelený do viacerých stupňov alebo krokov. Napríklad pri dvojstupňovom výbere sa v prvom stupni vyberajú skupiny jednotiek (tzv. primárnejednotky) a v druhom stupni sa vo vybraných skupinách vyberajú opäť náhodným spôsobom samotné jednotky (tzv. sekundárne jednotky). Pri viacstupňovom výbere sa tento postup uskutočňuje vo viac krokoch. Modifikácií náhodného výberu existuje samozrejme viac.
Zámerným výberomsa rozumie taký výber, kedy o zaradení jednotiek do výberu nerozhoduje len náhoda, ale aj rôzne logické alebo praktické hľadiská a tiež subjektívne názory . Zvolené hľadiská vyplývajú najčastejšie z toho, že poznáme dôležité črty základného súboru a využívame ich pri výberovom zisťovaní. Pri zámernom výbere vplývajú subjektívne názory na výber jednotiek, pričom dôsledky ich vplyvu na číselné hodnoty vo výberovom súbore nepoznáme. Záverom treba pripomenúť, že výberový súbor sa často tvorí tak, že nepoužijeme žiadny výberový postup, ale jednotky sa zaraďujú do výberového súboru postupne podľa ich výskytu. Nejedná sa tu teda o vyberanie, ale o voľné nekontrolované zaraďovanie jednotiek do výberového súboru. Takýto prípad sa často vyskytuje pri hypotetických základných súboroch. Je potrebné dôsledne posúdiť, či voľné zaraďovanie jednotiek do výberového súboru nevedie ku skresleniu záverov výberovéhoskúmania.
Výberové charakteristiky a ich rozdelenia Výberové súbory hodnotíme pomocou výberových charakteristík vypočítaných z hodnôt alebo obmien štatistických znakov výberového súboru. Vzhľadom na konkrétny výberový súbor je výberová charakteristika konštantná veličina, z hľadiska skúmaného základného súboru je však náhodnou premennou. Vyplýva to z toho, že z daného základného súboru môžeme vytvoriť veľký počet výberových súborov s určitým, vopred stanoveným rozsahom, ktoré sa navzájom líšia. Z každého takto vytvoreného výberového súboru získame rôzne hodnoty výberových charakteristík, lebo každá výberová charakteristika je odvodená z hodnôt vybraných jednotiek, je to náhodná premenná.
Pri praktických úlohách vytvárame z jedného základného súboru spravidla len jeden výberový súbor a z neho jednu výberovú charakteristiku určitého typu, teda jednu realizáciu náhodnej premennej. Predpokladajme, že náhodný výber o rozsahu n jednotiek sa skladá z hodnôt , výberovú charakteristiku potom možno vyjadriť ako funkciu
Medzi najbežnejšie výberové charakteristiky patria 1. výberový úhrn 2. výberový priemer 3. výberový rozptyl pri známej strednej hodnote základného súboru 4. výberový rozptyl
5. rozptyl výberového súboru je zrejmé, že platí rozdiel medzi je tým menší, čím väčší je rozsah výberového súboru n, pričom pri veľmi rozsiahlych výberových súboroch je zanedbateľný. Rozdelenie pravdepodobností výberovej charakteristiky je veľmi dôležité pre riešenie úloh výberového skúmania a preto sa snažíme určiť jeho analytické vyjadrenie a jeho parametre. Pre výberové rozdelenie, ako pre každé rozdelenie náhodnej premennej, je možné určiť rôzne charakteristiky. Rozdelenie pravdepodobností výberovej charakteristiky všeobecne závisí od rozdelenia pravdepodobnosti skúmanej premennej v základnom súbore, od typu výberovej charakteristiky a od rozsahu výberového súboru.
Pri riešení úloh výberového šetrenia používame : Kde α je hladina významnosti a koeficient 1-α nazývame spoľahlivosť s ktorou riešime úlohy výberového zisťovania. Uspokojivé výsledky dostaneme spravidla vtedy, ak volíme spoľahlivosť 95 %, resp. 99%. Pre 95 % spoľahlivosť zodpovedá hladina významnosti α = 0,05, 1 – α = 0,95, Pre 99 % spoľahlivosť zodpovedá hladina významnosti α = 0,01, 1 – α = 0,99
Teória štatistického odhadu (TO) Podstatou teórie odhadu je neznámeparametre základného súboru odhadovať pomocou výberových charakteristík Rozlišujeme: 1. Bodový odhad 2. Intervalový odhad
Bodový odhad Základom bodového odhadu je odhadnúť parameter G základného súboru pomocou údajov z výberového súboru, tj. pomocou výberovej charakteristiky un . Parameter pritom odhadujeme jedným číslom, (jedným bodom) odtiaľ názov bodový odhad tj.: un = G resp. čo čítame : estimátorom (odhadom ) parametra Gje un . Výberová charakteristika je náhodná premenná, ktorej hodnoty sa menia v závislosti od toho, ktoré jednotky základného súboru tvoria výberový súbor. Rozdiel medzi G a un definuje chybu odhadu tj.:
Prirodzenou požiadavkou je, aby chyba odhadu bola čo najmenšia. To dosiahneme vtedy ak výberová charakteristika spĺňa základné vlastnosti bodových odhadov: • 1. konzistenciu, tj výberová charakteristika un je konzistentným odhadom parametra G základného súboru, ak sa so zväčšovaním rozsahu výberového súboru výberová charakteristika blíži parametru G. • 2. neskreslenosť, tj. výberová charakteristika un je neskresleným (nevychýleným) odhadom parametra G, ak sa stredná hodnota výberovej charakteristiky rovná odhadovanému parametru . • 3. výdatnosť, tj. výdatným odhadom parametra G základného súboru nazývame takú charakteristiku un , ktorej rozptyl je zo všetkých výberových charakteristík poskytujúcich neskreslený odhad parametra G najmenší.
K bodovému odhadu parametrov základného súboru najčastejšie využívame tieto metódy: - metóda momentov • - metóda maximálnej vierohodnosti • - metóda najmenších štvorcov.
Na základe vlastností, ktoré musí spĺňať výberová charakteristika, platí, že výberový priemer , je konzistentným, neskresleným a výdatným odhadom strednej hodnoty základného súboru , čozapíšeme: a čítame: estimátorom (bodovým odhadom) strednej hodnoty základného súboru je výberový priemer . Ak odhadujeme priemer základného súboru výberovým priemerom dopúšťame sa chyby odhadu, ktorú definujeme: pričom jej veľkosť nevieme presne určiť. Ale môžeme odhadnúť tzv. štandardnú chybu odhadu,ktorá predstavuje priemernú veľkosť chýb odhadov pri mnohokrát opakovaných výberoch daného rozsahu. Štandardnú chybu pri známej štandardnej odchýlke základného súboru a rozsahu výberového súboru vypočítame
Avšak štandardnú odchýlku základného súboru často nepoznáme, preto nemôžeme štandardnú chybu výberového priemeru určiť presne, a tak ju odhadujeme pomocou výberovej štandardnej chyby odhadu výberového priemeru , ktorú definujeme
Pre rozptyl základného súboru platí, že jeho bodovým odhadom (konzistentným, neskresleným a výdatným), je výberový rozptyl tj.: čo čítame: estimátorom (bodovým odhadom) rozptylu základného súboru je výberový rozptyl , ktorý vypočítame podľa vzťahu Pre štandardnú odchýlku základného súboru platí, že jej bodovým odhadom, konzistentným, neskresleným a výdatným, je výberová štandardná odchýlka čo čítame: estimátorom, (bodovým odhadom) štandardnej odchýlky základného súboru je výberová štandardná odchýlka , ktorú vypočítame ako odmocninu s výberového rozptylu Skutočnosť, že pri bodových odhadoch dochádza k výberovým chybám, veľkosť ktorých nie je možné presne určiť, vedie k tomu, že sa bodové odhady dopĺňajú o intervalové odhady
Intervalové odhady Intervalovým odhadom parametra G základného súboru sa nazýva taký odhad, kedy sa odhadovaný parameter nachádza s pravdepodobnosťou v intervale , tj.: Interval sa nazýva interval spoľahlivosti. Hranice g1 a g2 sú funkcie výberovej charakteristiky un . Ak sú hranice intervalu spoľahlivosti konečné čísla definujeme pravdepodobnosť tj. pravdepodobnosť, že parameter základného súboru G je menší ako g1 sa rovná a pravdepodobnosť, že prekročí hodnotu g2 sa rovná . Súčet pravdepodobností označuje pravdepodobnosť, že parameter základného súboru G nie je z intervalu spoľahlivosti a nazýva sa riziko odhadu ( riziko podhodnotenia, riziko nadhodnotenia)
Riziko odhadu a interval spoľahlivosti 1- 2 1 g2 g1
Pravdepodobnosť sa nazýva koeficient spoľahlivosti alebo jednoducho spoľahlivosť odhadu, a je hladina významnosti. Za predpokladu, že koeficient spoľahlivosti je číslo blízke jednej, možno s určitosťou tvrdiť, že parameter základného súboru je z intervalu spoľahlivosti. Zvyšovaním spoľahlivosti sa však súčasne interval spoľahlivosti rozširuje, čím sa znižuje presnosť odhadu - a naopak, so znižovaním spoľahlivosti sa interval spoľahlivosti zužuje, čím sa zvyšuje presnosť odhadu. Bodový odhad potom môžeme považovať za extrémny prípad intervalového odhadu s nulovou šírkou intervalu ( odhad je síce presný ale stráca na spoľahlivosti ). Pri praktických výpočtoch najčastejšie zostavujeme intervaly spoľahlivosti obojstranné, ak je parameter základného súboru ohraničený zdola aj zhora, kedy aj sú rôzne od nuly. O symetrickom intervale hovoríme vtedy ak riziko nadhodnotenia aj podhodnotenia je rovnaké (v ďalšom texte sa budeme zaoberať len symetrickými intervalmi),
Intervalový odhad strednej hodnoty a.) pri známom rozptyle základného súboru , vychádzame pri konštrukcii intervalu spoľahlivosti z veličiny: je kvantil normovaného normálneho rozdelenia
Intervalový odhad je možné zapísať v tvare prípustná chyba odhadu predstavujúca polovicu šírky symetrického intervalu spoľahlivosti a je daná výrazom: b.) ak nepoznáme rozptyl základného súboru má veličina tvar
c.) ak nepoznáme rozptyl základného súboru a n je menší ako 30 má veličina tvar alebo
Intervalový odhad rozptylu a štandardnej odchýlky je dolný kvantil a je horný kvantil rozdelenia z (n-1) stupňami voľnosti