810 likes | 2.01k Views
STATISTIKA. Metoda uzoraka. Slučajna varijabla i distribucija vjerojatnosti. Statističke zakonitosti se očituju kada je broj mjerenja „dovoljno velik“, jer se tada relativne frekvencije stabiliziraju oko fiksnih brojeva – vjerojatnosti .
E N D
STATISTIKA Metoda uzoraka
Slučajna varijabla i distribucija vjerojatnosti • Statističke zakonitosti se očituju kada je broj mjerenja „dovoljno velik“, jer se tada relativne frekvencije stabiliziraju oko fiksnih brojeva – vjerojatnosti. • Pri izgradnji matematičkih modela statističkih fenomena polazi se od pretpostavke da je broj mjerenja beskonačno velik. U modelu se umjesto relativnih frekvencija, veličina ovisnih o broju mjerenja, koriste vjerojatnosti. Stoga se u statističkoj teoriji koriste distribucije vjerojatnosti umjesto distribucija (relativnih) frekvencija, što je činjeno u deskriptivnoj statistici. • Numerička veličina čiji oblik distribucije se analizira u deskriptivnoj statistici je statističko obilježje X, a u statističkoj teoriji slučajna varijablaX.
Slučajna varijabla i distribucija vjerojatnosti • Slučajna varijabla je kvantitativna veličina, rezultat statističkog pokusa, koja može poprimiti različite vrijednosti. • Statistički ili slučajni pokus predstavlja proces promatranja ili prikupljanja podataka koji se može ponavljati u jednakim uvjetima, a rezultat se ne može sa sigurnošću predvidjeti. • Vjerojatnost je brojčana mjera nastanka slučajnih (neizvjesnih) događaja. Imaju dvije vrste vjerojatnosti, objektivna i subjektivna vjerojatnost.
Slučajna varijabla i distribucija vjerojatnosti • Objektivna vjerojatnost se temelji na slučajnom uzorku koji se može ponavljati u jednakim uvjetima. • Postoje dva pristupa utvrđivanja objektivnih vjerojatnosti, klasični pristup ili a priori vjerojatnost i statistička ili a posteriori vjerojatnost. • Subjektivna vjerojatnost se temelji na osobnoj procjeni nastupanja slučajnog događaja.
Slučajna varijabla i distribucija vjerojatnosti • Slučajna varijabla može biti diskretna i kontinuirana. • Diskretna varijabla poprima konačan broj izoliranih (cjelobrojnih) vrijednosti ili prebrojivo mnogo vrijednosti. • Kontinuirana (neprekidna) varijabla poprima vrijednosti iz određenog intervala. Broj vrijednosti koje može uzeti kontinuirana varijabla je beskonačan.
Slučajna varijabla i distribucija vjerojatnosti • Distribucija vjerojatnosti diskretne slučajne varijable je skup uređenih parova vrijednosti, gdje prvi podatak u paru označava moguće vrijednosti slučajne varijable, a drugi podatak se odnosi na pripadajuću vjerojatnost • Svaka distribucija vjerojatnosti diskretne slučajne varijable mora ispunjavati slijedeće uvjete: • Vjerojatnosti u distribuciji vjerojatnosti ne mogu biti negativne, • Zbroj vjerojatnosti koje pripadaju svim vrijednostima slučajne varijable X mora biti jednak 1.
Slučajna varijabla i distribucija vjerojatnosti • Funkcija distribucije pokazuje kolika je vjerojatnost da diskretna slučajna varijabla X poprimi neku određenu vrijednost ili manju od te vrijednosti. • Dobiva se kumuliranjem vjerojatnosti iz distribucije vjerojatnosti, slično kao što se kumulativne frekvencije dobivaju postupnim zbrajanjem apsolutnih frekvencija.
Slučajna varijabla i distribucija vjerojatnosti • Funkcija distribucije ima sljedeća matematička svojstva: • Za bilo koju vrijednost vrijedi; • i ; • Za vrijedi da je , što znači da je funkcija distribucije monotono neopadajuća funkcija.
Slučajna varijabla i distribucija vjerojatnosti • Očekivana vrijednost diskretne slučajne varijable predstavlja ponderiranu aritmetičku sredinu svih mogućih vrijednosti slučajne varijable X, gdje su ponderi odgovarajuće vjerojatnosti u distribuciji vjerojatnosti. Izračunava se pomoću izraza: • Očekivana vrijednost slučajne varijable ima ista svojstva kao i aritmetička sredina numeričke varijable.U statističkim istraživanjima pojam očekivane vrijednosti slučajne varijable se poistovjećuje s aritmetičkom sredinom osnovnog skupa .
Slučajna varijabla i distribucija vjerojatnosti • Varijanca je mjera disperzije distribucije vjerojatnosti slučajne varijable. Za diskretnu varijablu X varijanca je dana izrazom: • Varijanca distribucije vjerojatnosti kao i varijanca distribucije frekvencija izražena je u kvadratnim mjernim jedinicama varijable X. Da bi se disperzija mjerila u mjernim jedinicama varijable X vadi se drugi korijen, tako se dolazi do standardne devijacije slučajne varijable X. • Relativna mjera disperzije je koeficijent varijacije, koji se dobiva kao omjer standardne devijacije i očekivane vrijednosti pomnožen sa 100
Slučajna varijabla i distribucija vjerojatnosti • Mjera asimetrije distribucije vjerojatnosti je omjer trećeg momenta oko sredine i standardne devijacije podignute na treću potenciju. • Mjera zaobljenosti distribucije vjerojatnosti se dobiva kao omjer četvrtog momenta oko sredine i standardne devijacije podignute na četvrtu potenciju.
Modeli distribucije vjerojatnosti • Modeli distribucije vjerojatnosti su analitički izrazi kojima se opisuju varijacije slučajne varijable. Prikazuju se pomoću algebarskih izraza (formula) kojima se predstavlja povezanost između vrijednosti slučajne varijable i pripadajućih vjerojatnosti. Modeli distribucije vjerojatnosti se nazivaju teorijskim distribucijama vjerojatnosti • Od teorijskih distribucija diskretne slučajne varijable u primijenjenoj statistici najčešće se koriste binomna i Poissonova distribucija.
Modeli distribucije vjerojatnosti • Kaže se da diskretna slučajna varijabla X ima binomnu razdiobu (distribuciju) s parametrima r i p i piše seX~B , ako je njezinskup vrijednosti , a pripadne vjerojatnosti mogu se odrediti pomoću formule:
Modeli distribucije vjerojatnosti • Binomna distribucija je određena sa dva parametra, a to su broj r koji predstavlja broj pokusa i p – vjerojatnost uspjeha u svakom pokusu. • Pokus prema komu je definirana binomna distribucija naziva se Bernoullijev pokus, prema J. Bernoulli (1654.-1705.) • Slučajna varijabla X predstavlja broj uspjeha u nizu od r pokusa. Može uzeti cjelobrojne vrijednosti od nula (nijedan uspjeh u nizu od r pokusa) do r (uspjeh u svakom pokusu).
Modeli distribucije vjerojatnosti • Najvažniji pokazatelji oblika binomne distribucije mogu se odrediti pomoću formula: • Očekivana vrijednost: • Varijanca: • Koeficijent asimetrije: • Koeficijent zaobljenosti:
Modeli distribucije vjerojatnosti • Poissonova distribucija je granični oblik binomne distribucije. • Kada se broj pokusa u Bernoullijevu procesu povećava, javlja se problem izračunavanja vjerojatnosti da varijabla X uzme određenu vrijednost prema formuli za binomnu distribuciju. • Francuski matematičar S.D. Poisson je 1837. godine razvio formulu prema kojoj se sa zadovoljavajućom točnosti može aproksimirati vjerojatnost iz binomne formule. Poissonova formula je:
Modeli distribucije vjerojatnosti • Za binomnu distribuciju vjerojatnosti se mogu aproksimirati navedenom formulom ako je vjerojatnost mala i ako je r veliko . • S obzirom da je p malo, kaže se da se radi o rijetkim događajima. • Slučajnu varijablu X se definira kao broj koliko puta se javio neki događaj u jedinici vremena ili prostora.
Modeli distribucije vjerojatnosti • Kažemo da slučajna varijabla X ima Poissonovu distribuciju (piše se ~ ) ako je njezin skup vrijednosti , a pripadne vjerojatnosti dane su formulom • Poissonova distribucija ima samo jedan parametar, a to je . Brojčano predstavlja prosječan broj pojavljivanja nekog događaja u jedinici prostora ili vremena
Modeli distribucije vjerojatnosti • Najvažniji pokazatelji Poissonove distribucije mogu se odrediti pomoću formula: • Očekivana vrijednost: • Varijanca: • Koeficijent asimetrije: • Koeficijent zaobljenosti:
Distribucija vjerojatnosti kontinuirane slučajne varijable • Distribucija vjerojatnosti kontinuirane slučajne varijable opisuje razdiobu vjerojatnosti na interval vrijednosti slučajne varijable. • Kod kontinuirane slučajne varijable broj mogućih vrijednosti je beskonačan, pa nema smisla govoriti o vjerojatnosti da slučajna varijabla X poprimi neku određenu vrijednost . • Za kontinuiranu slučajnu varijablu može se odrediti vjerojatnost da ona poprimi vrijednosti iz određenog intervala.
Distribucija vjerojatnosti kontinuirane slučajne varijable • Distribucija vjerojatnosti kontinuirane varijable određena je matematičkom funkcijom koja ima slijedeća svojstva: • Matematička funkcija kojom je određena distribucija nije nikada negativna, tj. • Ukupna površina ispod krivulje navedene funkcije uvijek je jednaka 1,
Distribucija vjerojatnosti kontinuirane slučajne varijable • Funkcija distribucije kontinuirane varijable kao i kod diskretne varijable označava vjerojatnost da slučajna varijabla poprimi određenu vrijednost ili manju od te vrijednosti. Izračunava se prema izrazu: • Vjerojatnost da slučajna varijabla bude iz intervala može se izračunati pomoću izraza:
Distribucija vjerojatnosti kontinuirane slučajne varijable • Očekivana vrijednost se određuje pomoću izraza: • Disperzija se mjeri varijancom i standardnom devijacijom kao drugim korijenom iz varijance. • Koeficijent asimetrije • Koeficijent zaobljenosti
Modeli distribucije vjerojatnosti kontinuirane varijable • Najvažniji model teorijske distribucije vjerojatnosti uopće je normalna ili Gausssova distribucija. • Značenje ovog oblika distribucije u statističkoj teoriji i statističkim istraživanjima se ogleda u tomu što se mnoge empirijske pojave modeliraju normalnom distribucijom. • Normalni raspored je prvi otkrio 1733. godine A. de Moivre kao granični oblik binomne distribucije, tj. promatrajući što se događa sa binomnom distribucijom kada broj pokusa raste u beskonačnost. U drugoj polovici XVIII. stoljeća ovaj oblik distribucije je proučavao i P. Laplace. Godine 1809. C. Gauss i P. Laplace su potpuno opisali ovaj oblik distribucije i izveli matematičku funkciju normalne distribucije. Ovaj oblik distribucije je poznat kao Gaussova ili Gauss-Laplaceova distribucija.
Modeli distribucije vjerojatnosti kontinuirane varijable • Za kontinuiranu slučajnu varijablu X kaže se da ima normalnu distribuciju s parametrima i (piše se X~N ), ako je njezina funkcija vjerojatnosti zadana formulom:
Modeli distribucije vjerojatnosti kontinuirane varijable • U navedenoj formuli veličine e i su konstante, što znači da je normalna distribucija određena parametrima - očekivana vrijednost ili aritmetička sredina i - očekivana disperzija ili varijanca. • Oblik i svojstva normalne distribucije, zbog složenosti njezine funkcije, mogu se bolje uočiti iz grafičkog prikaza.
Normalna distribucija • Najvažnija svojstva normalne distribucije su: • Normalna kriva je zvonolikog oblika, unimodalna je i simetrična u odnosu na pravac . • Aritmetička sredina, mod i medijan imaju istu vrijednost. • Definirana je od do , asimptotski se približava x-osi, pa je njezin raspon varijacija beskonačan. • Relativna mjera asimetrije je nula, a relativna mjera zaobljenosti ima vrijednost tri.
Normalna distribucija • Ukupna površina ispod krive je jednaka jedan, kao kod svake funkcije distribucije. • Vjerojatnost da slučajna varijabla, koja ima normalan oblik distribucije, poprimi vrijednost iz intervala ( , ) jednaka je: gdje je .
Metoda uzoraka • Metoda uzoraka je dio statistike kojoj je glavni zadatak da na temelju konačnog niza podataka otkriva statističke zakonitosti i pripadne parametre promatranih statističkih fenomena. • Metoda uzoraka polazi od proučavanja odnosa između konačnog niza podataka (uzorka) i modela distribucije vjerojatnosti slučajne varijable. • Zaključci doneseni na temelju uzorka nemaju apsolutnu sigurnost, već se govori o određenoj pouzdanosti izvedenog zaključka.
Metoda uzoraka • Osnovne zadaće statističkog zaključivanja pomoću metode uzoraka se odnose na procjenjivanje nepoznatih parametara osnovnog skupa (populacije) i na ispitivanje pretpostavki (testiranje hipoteza) o parametrima. • Da bi zaključci o karakteristikama osnovnog skupa doneseni na temelju uzorka bili valjani, uzorak mora biti reprezentativan. • Reprezentativnost uzorka se postiže odabirom odgovarajućeg načina izbora elemenata u uzorak.
Metoda uzoraka • S obzirom na način izbora jedinica, razlikuju se slučajni i namjerni uzorci. • Namjerni uzorak se dobiva izborom jedinica za koje istraživač, prema svom osobnom uvjerenju, smatra da su tipične i reprezentativne za dani osnovni skup. • Za slučajni uzorak imamo slučajan izbor jedinica, nekom od metoda slučajnog izbora
Metoda uzoraka • Reprezentativnost uzorka izabranog na temelju prosudbe istraživača zavisi isključivo od njegove osobne prosudbe i stručnosti. • U namjerne uzorke pored uzoraka koje istraživač bira isključivo prema subjektivnoj prosudbi, spadaju prigodni i kvotni uzorak. • Prigodni uzorak se bira ispitivanjem jednostavno dostupnih članova osnovnog skupa. • Kod kvotnog uzorka izbor jedinica određuju istraživači (anketari), ali u sklopu dodijeljene kvote.
Metoda uzoraka • Reprezentativnost uzorka se postiže slučajnim izborom jedinica. • Za slučajne uzorke u statističkoj teoriji su razvijene metode za statističko zaključivanje o osnovnom skupu uz objektivnu procjenu prihvatljivosti takvih zaključaka. • Među slučajnim uzorcima najpoznatiji je jednostavan slučajan uzorak, a još se koriste stratificirani uzorak i uzorak skupina.
Metoda uzoraka • Ako se iz osnovnog skupa veličine N izabire n elemenata u uzorak tako da svaki mogući uzorak ima jednaku vjerojatnost da bude izabran, onda se takav uzorak naziva jednostavan slučajan uzorak. Jednostavan slučajan uzorak može biti uzorak s ponavljanjem ili bez ponavljanja. • Izbor jedinica u uzorak iz konačnog skupa provodi se pomoću tablice slučajnih brojeva. • Tablica slučajnih brojeva predstavlja niz znamenki (ili skupina znamenki) u kojem svaka znamenka ima jednaku vjerojatnost pojavljivanja.
Metoda uzoraka • Kod slučajnog izbora jedinica u uzorak može se primijeniti sistemski izbor. Za sistemski izbor mora postojati uređen popis svih statističkih jedinica. • U tablici slučajnih brojeva bira se samo početak izbora, a dalje se biraju jedinice prema koraku izbora. Ako se iz skupa od N elemenata bira uzorak veličine n članova, korak izbora predstavlja odnos N/n.
Metoda uzoraka • Slučajan izbor jedinica u uzorak se koristi kada su jedinice osnovnog skupa relativno homogene s obzirom na karakteristike koje su predmet istraživanja. • Ako postoji značajna varijabilnost elemenata statističkog skupa, koristi se stratificirani uzorak. • Prvo se osnovni skup podijeli na homogene skupine elemenata koji se nazivaju stratumi. Iz svakog stratuma se slučajnim izborom bira određeni broj jedinica u uzorak, proporcionalno veličini stratuma.
Metoda uzoraka • Kada je osnovni skup velik i ne raspolaže se popisom svih jedinica, može se koristiti uzorak skupina. • Osnovni skup se podijeli na skupine koje na neki način predstavljaju cjeline. Skupine se obično razlikuju po veličini, a sadrže heterogene jedinice čiji varijabilitet je sličan onom u osnovnom skupu. U uzorak se bira određeni broj skupina i to slučajnim izborom.
Sampling distribucije • Deskriptivne mjere koje se izračunavaju pomoću vrijednosti obilježja kod svih jedinica osnovnog skupa nazivaju se parametri skupa. Najčešće korišteni parametri su aritmetička sredina , standardna devijacija i proporcija dijela statističkih jedinica koje imaju određeno svojstvo. • Deskriptivne mjere koje se izračunavaju pomoću podataka u uzorku se nazivaju statistika uzorka. S obzirom da služe za procjenu parametara osnovnog skupa nazivaju se procjenitelj.
Sampling distribucije • Statistika uzorka je varijabla koja se naziva sampling-varijabla. • Najznačajnije sampling-varijable su aritmetička sredina uzoraka , standardna devijacija uzoraka (S) i proporcija uzoraka (P). • Kod procjene parametara osnovnog skupa pomoću uzorka bitno je poznavanje oblika distribucije vjerojatnosti sampling-varijable ili kraće sampling-distribucije.
Sampling distribucije • Za sampling-distribuciju aritmetičkih sredina uzoraka vrijede pravila: • Ako je slučajni uzorak veličine n izabran iz normalno distribuiranog osnovnog skupa s aritmetičkom sredinom i standardnom devijacijom , aritmetička sredina uzoraka je slučajna varijabla s normalnim zakonom distribucije i parametrima (očekivana vrijednost) i (standardna devijacija ili standardna greška procjene aritmetičke sredine.
Sampling distribucije • Ako je slučajni uzorak dovoljno velik i izabran iz osnovnog skupa bilo kojeg oblika distribucije promatranog obilježja s aritmetičkom sredinom i standardnom devijacijom , aritmetička sredina uzoraka teži normalnom obliku distribucije sa parametrima (očekivana vrijednost) i (standardna devijacija ili standardna greška procjene aritmetičke sredine).
Sampling distribucije • Ako se napravi k mogućih uzoraka veličine n iz osnovnog skupa od N elemenata, zatim se izračuna aritmetička sredina za svaki uzorak čije vrijednosti su , onda je aritmetička sredina aritmetičkih sredina svih mogućih uzoraka jednaka aritmetičkoj sredini osnovnog skupa:
Sampling distribucije • Za odnos standardne devijacije osnovnog skupa i standardne devijacije sampling-distribucije vrijedi izraz: • Navedena relacija o odnosu standardne devijacije sampling-distribucije i standardne devijacije osnovnog skupa vrijedi za beskonačne osnovne skupove i za konačne skupove s ponavljanjem. • Izraz za standardnu grešku procjene aritmetičke sredine za konačne skupove je:
Sampling distribucije • Drugi važan pokazatelj osnovnog skupa je proporcija elemenata koji imaju određeno svojstvo. • Proporcija elemenata osnovnog skupa s određenim svojstvom se označava sa i predstavlja relativnu frekvenciju. Ako se elementi osnovnog skupa razvrstaju na one koji imaju traženo svojstvo i preostale elemente, onda se proporcija izračunava prema izrazu , gdje je N ukupan broj elemenata osnovnog skupa, a M broj elemenata sa zadanim svojstvom.
Sampling distribucije • Proporcija osnovnog skupa se procjenjuje pomoću uzorka. Procjenitelj je proporcija uzorka. • Proporcije uzoraka se razlikuju i predstavljaju slučajnu varijablu koja se označava sa . Za korištenje proporcije uzorka kao procjenitelja proporcije osnovnog skupa nužno je poznavanje oblika distribucije slučajne varijable
Sampling distribucije • Sampling-distribucija proporcija za dovoljno velike uzorke približno je normalnog oblika, s očekivanom vrijednosti koja je jednaka proporciji osnovnog skupa, tj. , i standardnom devijacijom . • Standardna devijacija sampling-distribucije proporcija se određuje pomoću izraza:
Sampling distribucije • Sampling-distribuciju proporcija uzorka opravdano je aproksimirati normalnom distribucijom za velike uzorke. • Praktično pravilo za definiciju velikog uzorka je ispunjavanje uvjeta: i .
Procjena parametara osnovnog skupa • Procjenjivanje nepoznatih parametara osnovnog skupa temelji se na podacima koji predstavljaju slučajan uzorak i na izračunu odgovarajuće statistike uzorka ili procjenitelja. • Parametri se mogu procijeniti brojem i intervalom. • Izračunata vrijednost statistike uzorka je procjena parametra brojem, a procjena intervalom se sastoji u određivanju granica raspona varijacije u kojem se prema nekom kriteriju očekuje da će biti vrijednost nepoznatog parametra.
Procjena parametara osnovnog skupa • Interval procjene aritmetičke sredine se određuje kao interval vrijednosti oko aritmetičke sredine uzorka. • Širina ovog intervala zavisi od pouzdanosti procjene i oblika sampling distribucije aritmetičkih sredina uzoraka. • Sampling-distribucija aritmetičkih sredina uzoraka određene veličine ima normalan oblik.