390 likes | 746 Views
Statistika u istra živačkom procesu – statističko zaključivanje i statističko modelovanje. Goran Trajković januar , 201 3 . godine. Statisti čko zaključivanje.
E N D
Statistika u istraživačkom procesu – statističko zaključivanje i statističko modelovanje Goran Trajković januar, 2013. godine
Statističko zaključivanje Donošenje zaključka o populaciji na osnovu opservacija iz uzorka. Zaključak je probabilističke prirode, jer se donosi na osnovu uzoračkih podataka, i praćen je izvesnim stepnom nesigurnosti Ciljna populacija Uzoračka populacija Uzorak Analiza Statistički zaključak o populaciji sa određenim stepenom nesigurnosti Uzoračka statistika (uzorački statistik)
Parametri osnovnog skupa i uzoračke statistike • Parametar – statistička mera date varijable u populaciji • Uzoračka statistika – statistička mera date varijable u uzorku
Dvatipa statističkog zaključivanja • Ocena vrednosti parametra u populaciji (npr. aritmetička sredina ili proporcija) • Testiranje hipoteza – testiranje pretpostavke o vrednosti parametra
Ocena parametra (ocenjivanje) Proces korišćenja informacija iz uzorka u cilju donošenja zaključka o vrednosti populacionog parametra. Ocena može biti data u obliku jedne vrednosti (tačkasta ocena) ili u obliku intervala poverenja. Interval poverenja – interval unutar kojeg se sa definisanom verovatnoćom (nivo poverenja, koeficijent poverenja) nalazi nepoznati parametar. Npr. za koeficijent poverenja of 95% može se očekivati da će se nepozanti parametar sa verovatnoćom od 0.95 nalaziti u datom intervalu poverenja, odnosno da će u ponovljenom uzorkovanju 95% intervala sadržati parametar. Definisana verovatnoća se odnosi na interval poverenja, a ne na sam parametar. Granice inervala poverenja nazivaju granicama poverenja.
Izračunavanje granica poverenja Granice intervala poverenja na osnovu podataka iz velikih uzoraka izračunavaju se, za koeficijent pouzdanosti od 95%, po formuli: Statistik 1.96SE Ili, drugačije napisano: Statistik - 1.96 SE Parametar Statistik + 1.96 SE a za koeficijent pouzdanosti od 99%, po formuli: Statistik 2.58SE Ili, drugačije napisano: Statistik - 2.58 SE Parametar Statistik + 2.58 SE
Preciznost i širina intervala poverenja • Preciznost intervala poverenja jednaka je polovini njegove širine, npr. za velike uzorke i koeficijent pouzdanosti od 95% iznosiće 1.96SE • Veća širina intervala poverenja podrazumeva njegovu manju preciznost • Širina intervala poverenja (i preciznost) zavise od: • Izabranog nivoa poverenja. 99% interval poverenja je širi od 95% intervala poverenja • Veličine uzorka. Sa povećanjem uzorka smanjuje se širina intervala poverenja • Varijabiliteta podataka. Sa povećanjem varijabiliteta raste i širina intervala poverenja • Širok i neprecizan interval poverenja nastaje zbog visokog koeficijenta poverenja, malog uzorka i velike varijabilnosti.
x –aritmetička sredina uzorka Interval poverenja aritmetičke sredine Za velike uzorke (n>30) Za male uzorke (n30) z – kritična vrednost iz tablice normalne raspodele (1.96 za 95% interval poverenja, 2.58 za 99% interval poverenja) t – vrednost iz tablice t raspodele za odgovarajući broj stepena slobode (DF) i nivo poverenja sd–standardna devijacija n – veličina uzorka –aritmetička sredinau populaciji
Primer: Na uzorku od 140 bolesnika aritmet. sredina glikemije iznosi 6.8 mmol/L, a standardna devijacija 1.4 mmol/L. Odrediti 95% i 99% intervale poverenja aritmetičke sredine glikemije za tu populaciju bolesnika. 95% interval poverenja: 99% interval poverenja:
Interval poverenja proporcije p – proporcija posmatranog događaja u uzorku z – kritična vrednost iz tablice normalne raspodele (1.96 za 95% interval poverenja, 2.58 za 99% interval poverenja) n – veličina uzorka – proporcija posmatranog događaja u populaciji
Primer: Na uzorku od 155 učenika u jednoj opštini nađena je anemija kod 47 učenika. Odrediti intervale poverenja u kome se sa verovatnoćama 0.95 i 0.99 nalazi proporcija učenika sa anemijom u toj opštini. Proporcija u uzorku: 95% interval poverenja: 99% interval poverenja:
Hipoteza • Pretpostavka o svetu oko nas • Pretpostavka koju je moguće testirati i odbaciti • Prepostavka koja je unapred navedena kao verovatna istina, a koju istraživač ima nameru da testira na osnovu podataka • Istraživačka hipoteza može imati fomu očekivanja, verovanja, dedukcije ili sumnje. Pokretač je istraživanja i zahteva aktuelno dokazivanje. Istraživačku hipotezu prevodimo u statističke hipoteze kako bi mogle biti testirane statističkim tehnikama.
Statistička hipoteza • Statistička hipoteza je pretpostavka ili tvrđenje o jednoj ili više populacija (pretpostavka o vrednostima parametara u populaciji). • Uvek se formulišu dve hipoteze - nulta i alternativna: • Nulta hipoteza (H0) je tvrđenje o tačnoj vrednosti parametra u populaciji • Alternativna hipoteza (HAili H1) ili istraživačka hipoteza je tvrđenje da je vrednost parametra u populaciji različita od tvrđenja u nultoj hipotezi
Testiranje hipoteza – komplementarnost nulte i alternativne hipoteze • Nulta i alternativna hipoteza su komplementarne. Samo jedna je tačna. • U postupku testiranja hipoteza testira se samo nulta hipoteza. • Moguće odluke na osnovu statističke analize uzoračkih podataka su: (1) prihvatanje H0i odbacivanje H1, ili (2) odbacivanje H0i prihvatanje H1
Dvosmeno i jednosmerno testiranje hipoteza Dvosmerni test – test u kojem je alternativna hipoteza dvosmerna (nije direktivna) odnosno ima oblik tvrđenja da je jedan populacioni parametar ili veći ili manji od drugog: H0: μ1 = μ2H1: μ1 ≠ μ2 Jednosmerni test – test u kojem je alternativna hipoteza jednosmerna (direktivna je) odnosno ima oblik tvrđenja da je jedan populacioni parametar veći ili manji od drugog: H1: μ1 > μ2 H1: μ1 < μ2
Greške u testiranju hipoteza • Greška prvog tipa – odbacivanje tačne nulte hipoteze. • Greška drugog tipa – neodbacivanje pogrešne nulte hipoteze. • Istovremeno se može napraviti samo jedan tip greške. • Greška prvog tipa se neposedno kontroliše izborom nivoa značajnostii. • Greške prvog i drugog tipa su zavisne. Smanjenje verovatnoće greške prvog tipa dovodi do povećanja verovatnoće greške drugog tipa, i obrnuto. • Povećanje uzorka uopšteno smanjuje verovatnoću oba tipa grešaka. • Verovatnoća greške drugog tipa se smanjuje sa povećanjem razlike aritmetičkih sredina (kada se testira razlika aritmetičkih sredina). • Snaga ili moć (1-) statističkog testa je verovatnoća odbacivanja nulte hipoteze kada je alternativna hipoteza tačna.
Nivo značajnosti i p-vrednost ( nivo, nivo značajnosti) - maksimalno dozvoljena greška prvog tipa. U procesu testiranja hipoteza običajeno se bira nivo značajnosti od 0.05. p-vrednost (opservirani nivo značajnosti, verovatnoća značajnosti) – verovatnoća da se, pod pretpostavkom tačne nulte hipoteze, na osnovu slučajnosti opserviraju rezultati koji su jednaki ili ekstremniji od aktuelno opserviranih. Ako je p-vrednost manja od nivoa značajnosti (p0.05), odbacuje se nulta hipoteza i dobijeni rezultati označava se statistički značajnim.
Koraci u testiranju hipoteza • Formulisati H0 i H1 • Odabrati nivo značajnosti ( nivo) • Odabrati dvosmerno ili jednosmerno testiranje zavisno od formulacije alternativne hipoteze • Odabrati statistički test i izračunatistatistiku testa (empirijska vrednost). • Odrediti oblast odbacivanja –teorijska (granična, kritična)vrednost. • Uporediti empirijsku i teorijsku vrednost test statistike. Odbaciti H0 i prihvatiti H1 ako je statistika testa u regionu odbacivanja (p ). Prihvatiti H0 ako statistika testa nije u regionu odbacivanja (p > ).
Primer: Formiran je uzorak od 90 ispitanika iz opšte populacije. Za svakog ispitanika dobijen je podatak o statusu pušenja (pušač ili nepušač), i podatak da li je ispitanik bolovao od akutne respiratorne infekcije u toku poslednje zime. Postavljena je nulta hipoteza da su status pušenja i oboljevanja od akutne respiratorne infekcije nezavisne varijable, odnosno da nema asocijacije između njih. Pušenje i oboljevanja od akutne respiratorne infekcije u zimskom periodu nisu nezavisne variajble. Između njih postoji statistički značajna asocijacija (hi-kvadrat=4.70, DF=1, p=0.030, koeficijent kontingencije=0.22).
Primer: Dve grupe lečene su različitim tretmanima. Sedimentacija eritrocita (mm/h) je: prva grupa:15, 17, 20, 14, 19, 17, 18, 19 druga grupa:16, 14, 17, 15, 18, 17, 16 Da li je razlika značajna? Testirati na nivou značajnosti 0.05.
Kritična vrednost u tablici t raspodele za DF = 13, nivo značajnosti 0.05 i dvosmerno testiranje je 2.160. Statistika testa (1.35) je manja od kritične vrednosti. Ne odbacuje se nulta hipoteza. Zaključak: Razlika nije statistički značajna (t=1.35, DF=13, p>0.05)
Model • Model je uprošćeno predstavljanje realne pojave • Modelom su reprodukovani samo neki aspekti realne pojave • Dobar model bi trebalo da objašnjava pojavu što je moguće vernije, ali ne bi trebalo da bude previše komplikovan, time što bi se pokušala reproodukcija svakog detalja, jer to može da ometa razumevanje • Model nam pomaže u razumevanju realne pojave na uprošćen, brži i jeftiniji način
Statistički model • Statističkim modelom predstavljamo pojave koje sadrže slučajnosti • Statistički modeli su statističke formulacije ili analize, u uslovima moguće primene sa datim podacima, koji se koriste za proveru pretpostavki i parametara u analizi. Primeri statističkih modela su npr. linearni model i binomni model • Statistički model počinje pretpostavkom o odnosu dve varijable u ispitivanoj populaciji i ocenom populacionih parametara na osnovu uzoračkih podataka. Bez pretpostavljenog modela analiza nije moguća. • Modelom se opisuje struktura podataka na takav način da omogući razumevanje pretpostavljenog procesa koji je generisao podatke • Izbor modela je od presudnog značaja za analizu. Planiranje istraživanja obuhvata i pretpostavke o modelu koji je moguće primeniti što može biti promenjeno posle eksploracije podataka
Varijable u statističkom modelu • Statistički modeli se koriste da opišu ponašanje jedne ili više varijabli, pri čemu se neke od njih posmatraju kao varijable eksplanatori (nezavisne varijable), a neke kao rezultujuće varijable (zavisne varijable). Modelom se opisuje kako ponašanje rezultujuće varijable zavisi od varijable eksplanatora • Eksplanatorna varijabla može biti npr. tretman u studijama intervencije ili faktor povezan sa pojavom neke bolesti u etiološkim studijama • Statistički model omogućava predikciju rezultujuće varijable na osnovu ponavanja vrednosti eksplanatorne varijable • U statistički model je, zbog stohastičkog odnosa varijabli, uvek uključena i greška modela • Statistički model je moguće unaprediti sa ciljem boljeg razumevanja procesa i bolje predikcije
Izbor modela Izbor modela zavisi od: • Naučnog razumevanja, npr. proverene teorije na osnovu koje se mogu predvideti očekivanja • Prethodnog iskustva sa sličnim podacima • Eksploracije podataka • Dijagnostičkih informacija o aktuelno izabranom modelu
Pretpostavke modela Najčešće preptostavke statističkih modela: • Normalnost raspodele ili normalnost raspodele grešaka. Važnija je kod malih uzoraka jer sa porastom veličine uzorka raspodela aritmetičkih sredina teži normalnoj raspodeli bez obzira na raspodelu u populaciji (Centralna granična teorema) • Nezavisnost – opservacije su nezavisne ako se na osnovu vrednosti jedne ne može prevideti vrednost druge opservacije. Ova pretpostavka je narušena ako postoje klasteri podataka. Unutar klastera postoji povezanost/korelacija podataka. Klasterovanje se može sprečiti randomizacijom u ekeperimentu ili slučajnim uzorkovanjem u opservacionim istraživanjima • Homogenost varijansi – varijansa rezultujuće varijable je jednaka za sve vrednosti varijable eksplanatora
Valjanost modela • Provera o ispunjenosti pretpostavki modela • Provera u kojoj meri ocene modela mogu biti pod uticajem malog broja uticajnih opservacija kao što su npr. ekstremne vrednosti • Provera odnosa broja varijabli eksplanatora i broja opservacija. Uopšteno, broj opservacija mora biti najmanje deset puta veći od broja varijabli eksplanatora. Za svaku kvalitativnu varijablu broj kategorija umanjen za jedan uzima se kao broj varijabli eksplanatora
Formulacija statističkog modela Mnogi modeli imaju oblik: Y = μ + ε gde je Y - Opservirana vrednost, μ- Predikcija modela. ε- Statistička greška (rezidual) Razlika opservirane vrednosti i predikcije jeste rezidual.
Primer: Za dvanaestispitanicaženskog pola data je starost i vrednosti sistolne tenzije. Ispitati povezanost ova dva obeležja. Prognozirati sistolnu TA za starost od 77 godina.
Prognozirana vrednost sistolne TA za starost od 77 godina iznosi: