600 likes | 774 Views
Poslijediplomski znanstveni studij “BIOMEDICINA” akad. god. 200 3. /0 4. Statističko modeliranje istraživanja. Prof.dr.sc. Josipa Kern jkern@snz.hr. Statistički model istraživanja se temelji na…. Definiranim ciljevima istraživanja Postavljenoj hipotezi Planu istraživanja i evaluaciji plana
E N D
Poslijediplomski znanstvenistudij“BIOMEDICINA” akad. god. 2003./04. Statističko modeliranje istraživanja Prof.dr.sc. Josipa Kern jkern@snz.hr
Statistički model istraživanja se temelji na… • Definiranim ciljevima istraživanja • Postavljenoj hipotezi • Planu istraživanja i evaluaciji plana • Entitetima i atributima • Raspoloživim mogućnostima
O čemu će se danas govoriti? • O uzorku i populaciji, uzorkovanju i veličini uzorka • O primjerima statističkih analiza, prikazima rezultata i interpretaciji • O “nevažnim” stvarima prilikom analize podataka
Uzorak i populacija • U malim populacijama uzorkovanje nije potrebno • Uzorkovanje • temeljeno na vjerojatnosti (probability sampling) (VU) • koje ne uključuje vjerojatnost (nonprobability sampling) (ne-VU)
Definicija populacije uključuje… • Identificiranje skupine – entiteta koje će se promatrati • Određivanje područja u kojemu skupina egzistira • Određivanje perioda unutar kojega će se prikupljati podaci (ako je to potrebno)
Uzorkovanje ovisi o svrsi… • Generalizacija (uzorak populacija) zahtijeva slučajni uzorak • Okvir uzorkovanja (sampling frame) zahtijeva: • Uključivanje samo pripadnika skupine od interesa • Uključivanje svih pripadnika skupine od interesa • Bez dupliciranja • Bez ikakvog pravila pri uključivanju pripadnika u uzorak
Kako izabrati uzorak za potrebe generalizacije? • Jednostavni slučajni uzorak • Sistematski uzorak (može zamijeniti slučajno uzorkovanje u slučaju velikih populacija) • Stratificirani uzorak
Kako odrediti veličinu uzorka? • Razina pouzdanosti (confidence level), npr. 95% ili više/manje • Prihvaćena/očekivana razina “ne-odgovaranja” (nonresponse), ako je potreban uzorak veličine 80, a očekuje se da 30% osoba iz uzorka neće odgovoriti, onda treba računati s uzorkom veličine 114=80/.7)
Uzorkovanje u nekim drugim situacijama • Uzorak kvote – uzimanje slučajeva u uzorak dok se ne postigne ona kvota (%) koja postoji u populaciji • Namjerni uzorak – uzimanje “informacijama bogatih” slučajeva (objekata, entiteta, jedinica promatranja)
Prikupljanje podataka • Opis podataka (skale mjerenja – nominalna, ordinalna, intervalna, omjerna) • Organizacija podataka (datoteka, baza podataka – ovisno o kompleksnosti; posebna pozornost kvaliteti podataka) • Uvažavanje postojećih resursa odnosno traženje novih (računalni programi)
Kojim jezikom govori statistika i kako uskladiti želje i potrebe istraživača s mogućnostima i zahtjevima statistike?
Hipoteze istraživanja… • Formulirati u terminima statistike tražeći primjerene modele analize podataka: • prepoznavanje strukture, • traženje homogenih podskupina, • provjeravanje postojanja razlika i/ili povezanosti, itd.
Prvi primjer…1-zdravi2-bolesni ali to ne znaju3-bolesni koji se liječe
Primjer “grafičkog” prikazivanja distribucije iz kojega se može pročitati frekvencija svake pojedinačne vrijednosti (stem-and-leaf) DOB Stem-and-Leaf Plot for SPOL= 1 Frequency Stem & Leaf 5,00 Extremes (=<49) 3,00 5 . 001 3,00 5 . 233 2,00 5 . 55 10,00 5 . 6666667777 14,00 5 . 88888899999999 12,00 6 . 011111111111 30,00 6 . 222222222222222333333333333333 18,00 6 . 444444445555555555 18,00 6 . 666666666667777777 11,00 6 . 88888999999 14,00 7 . 00000011111111 12,00 7 . 222222333333 6,00 7 . 444555 4,00 7 . 6666 Stem width: 10 Each leaf: 1 case(s)
Primjer grafičkog prikazivanja distribucija skupinakoje se uspoređuju (Box-Plot)
Neki uvjeti za primjenu AV nisu zadovoljeni (distribucija nije normalna)
Uvjeti za primjenu AV su zadovoljeni – rezultat se može interpretirati
Izračunate srednje vrijednosti transformirane kao 1/BMI i interval pouzdanosti
Regresijska analiza… • Služi analizi povezanosti dvaju skupova varijabli • Kriterijska ili zavisna varijabla (kvantitativna) • Prediktori ili nezavisne varijable • Poopćenje – kanonička analiza
Fizička aktivnost 1-teška 2-srednja 3-laka Prediktori Dob Sistolički tlak Dijastolički tlak Alkohol Ulje/mast BMI Drugi primjer…
Logistička regresija… • Služi analizi povezanosti dvaju skupova varijabli • Kriterijska ili zavisna varijabla (kvalitativna) • Prediktori ili nezavisne varijable • Kriterijska varijabla može biti binarna, multinomijalna, ordinalna
Još neki pogledi na analizu povezanosti i traženje relacija među podacima …
Inteligentna analiza podataka (IAP) • Otkrivanje znanja (knowledge discovery) • “Raskopavanje” podataka (data mining) • Strojno učenje (machine learning) • Raspoznavanje uzoraka (pattern recognition) • Itd.
Alati za IAP… http://www.rulequest.com • See5 • Cubist • Magnum Opus http://dms.irb.hr • ILLM • Statistica – Neural network
See5…primjena… • primjena.names – imena klasa kojima pojedini ispitanici pripadaju i atributa koji ih opisuju • Atributi mogu biti:diskretnimjereni na nominalnoj ili ordinalnoj skali ili kontinuirani(numeričke vrijednosti).
See5…primjena… • primjena.data – podaci iz kojih će See5 ekstrahirati modele povezanosti atributa i klasa. • Svaki zapis sadrži podatke (klasa, atributi) jednog ispitanika
See5…primjena…primjer… • Epidemiološka studija (1970-1990) • Uzorak ispitanika koji su umrli od kardiovaskularnih bolesti tijekom tog perioda • Pitanje: Jesu li oni znali da su bolesni? • 1 – zdravi • 2 – bolesni (uzimaju lijekove, pozitivni klinički i/ili laboratorijski nalazi)