510 likes | 643 Views
Eksamensopgave i statistik for FSV-kandidatstuderende – maj 2002. d. 28. oktober Volkert Siersma. Eksamensopgave. 2 uger Max. 30 sider. Det skal gøres hurtigere nu at vi har kun to timer. Til gengæld skal vi ikke holde tilbage med at se på tabeller og figurer for at underbygge vores valg.
E N D
Eksamensopgave i statistik for FSV-kandidatstuderende – maj 2002 d. 28. oktober Volkert Siersma
Eksamensopgave • 2 uger • Max. 30 sider Det skal gøres hurtigere nu at vi har kun to timer. Til gengæld skal vi ikke holde tilbage med at se på tabeller og figurer for at underbygge vores valg.
Eksamensopgave For at belyse, hvorledes koncentrationen af et bestemt væksthormon afhænger af køn, alder, BMI og kønsmodning blev der i begyndelsen af 90’erne indsamlet oplysninger om koncentrationen af dette hormon blandt sunde danske børn, unge og voksne. Men vores formål i denne opgaven er lidt anderledes…
Eksamensopgave En statistisk standard er en statistisk model, der viser hvorledes et bestemt forhold varierer inden for en bestemt population, således at man ud fra denne model kan vurdere, om konkrete observerede værdier er påfaldende. Det overordnede formål med denne opgave er at udarbejde en sådan standard ud fra hvilken man med udgangspunkt i køn, alder, BMI, menarche, testikelvolumen og pubertet kan vurdere, om en person har et usædvanligt lavt eller højt hormon niveau. I skal lave en model der beskriver, hvorledes hormon koncentrationen afhænger af ovennævnte faktorer, således at man efterfølgende kan beregne grænseværdier, der afgrænser en passende lille andel – f.eks. 5 % - af populationen med påfaldende lave eller høje hormon koncentrationer.
Statistiske modeller All models arewrong; some models areuseful – George Box (Statistiske) modeller er simplificeringer af virkeligheden. De bruges til at fremhave bestemte tendenser der har forskningsinteresse (og ignorere andre tendenser der ikke er vigtig for formålet). Modellerne bliver kalibreret med data der er observeret fra processen; denne kalibrering er ofte formålet med modelbygningen!
To formål • Inferens – Har alder betydning for hormonniveauet? • Prediktion – Hvad er hormonniveauet for en given alder? Modeller er nok af samme type, men hvilken modelantagelser er særlig vigtige kommer an på formål.
Generelle lineære modeller (GLM) • Modeller for kvantitative afhængige variabler • Generelle – flere uafhængige variabler • Kvantitative: også transformationer heraf • Kategoriske: dummy variabler • Vekselvirkninger: produkt af variabler • Lineære – middelværdi af den afhængige variable er en såkaldt lineær form: E(Y| X1,..,Xk) = f(X1,..,Xk) =
Antagelser GLM • Residualerne er normaltfordelte • Varians af residualerne er homogen • Effekterne er lineære Hvad betyder analysens formål for analysen og hvor vigtig antagelserne er i begge tilfælde?
Formål: inferens • Har alder en effekt på hormon niveau? • Test om en eller flere parametre (beta) i den lineære form er lig med 0. • Varianshomogenitet er vigtig, men residualerne kræves ikke normaltfordelte; hvis vi har data nok giver CLT nok den rigtige fordelinger af teststørrelser.
Formål: prædiktion • Hvad er hormonniveauet for en given alder? • Ønsket er en beskrivelse af fordelingen af hormon niveauet for given alder. • Hvis vi har varianshomogenitet og normalt fordelte residualerne kan vi bygge en 95% referenceinterval for hver alder.
Ang. Lineære effekter Det kraves at den lineære form er en godt beskrivelse af middelværdien, ikke at alle variabler indgår bare som kvantitativ hovedeffekt. Hvis hormonniveauet stiger først med alder og så afflader til bestemt niveau, så er måske effekten af log(alder) lineær.
Ang. Lineære effekter Hvis man ikke vil tænke så meget hvilken transformation kræves for linearitet, så kan man lade data tale: • Lav en kvantitativ variabel om i en kategorisk variabel • Tilføj X i anden, X i tredje, X i fjerde, etc. til analysen: X indgår som en polynom. • Snedig valgte funktioner: kernelsmootherssplines, wavelets
Analysestrategi • (Svend) Se på de enkelte variabler og på relationer mellem hormon og variabler for at finde ud hvad modellen skal indeholde, byg så modellen. • (Alternativ) Byg en model, se om de vigtige antagelser holder eller om den kan forbedres; lav så en bedre model. Skal indeholde elementer fra begge…
Analysestrategi • Enkelte variabler – er der problemer? • Variabler og hormon – gode ideer til modelbygning. • Saml variabler i én model og tilføj/fjern elementer til forbedring. • Normalfordelte residualerne • Varianshomogenitet • Bedre prædiktion (…)
Ang. Bedre prædiktion • Hvis vi tilføjer elementer i vores model bliver vores fit – f-eks. R2 – bedre (per definition). • I en model med for mange elementer går vigtige tendenser tabt til fordel for fit. • Vores formål skal være den bedste fit med mindst mulig model elementer/parametre. • (Akaike) AIC=2k-n*[log(2πRSS/n) +1] (k=# parametre, n=# data) mindst er bedst.
Enkelte variabler • For mange er der ingen hormon niveau. Vi håber at det er tilfældigt, og at det ikke betyder at niveauet er så lavt at det ikke kan måles… • Testikelvolumen er bare for drenge, og menarche er bare for piger. Endvidere skal vi i trin 3 opdele analyser i tre pubertets stadier: så får vi 6 modeller til sidst!
Hormon • Ikke normalt fordelt; men det behøver den heller ikke at være. • To ”topper”: to køn? • Lidt langt hale til højre • Ser ikke mærkeligt ud umiddelbart
Hormon og alder • SPSS har en facilitet at plotte den bedste lineære, kvadratiske og kubiske fit i en plot (lav en graph med legacy dialogs og åben så chart fra outputtet, en line fit kan indlægges) • Fit bliver (lidt) bedre jo højere grad polynom • Variansen stiger med alderen: variansheterogenitet. Forsøg med logaritme af hormon niveau.
Transformationer • Især hvis der er variansheterogenitet kan det hjælpe at modellere en transformation af den afhængige variable Y i stedet for Y selv. • Hvis variansen stiger når værdier (>0) er større (ligesom i hormon data), så er en log(Y) en oplagt valg; parametre kan interpreteres: exp(β) gange mere hormon når alder stiger med 1. • Andre transformationer: f.eks. Box-Cox
lnHormon Virker ikke dårligere end hormon. Hale er nu til venstre.
lnHormon og alder • Mere varianshomogen end før • Virker som en kvadratisk sammenhæng i første omgang.
lnHormon og køn Variansheterogenitet, også efter log-transformationen. Men vi skal se hvad der sker når alder bliver inddraget; og vi skal senere alligevel dele data op for køn.
First model • lnHormon = sex + alder + alder2 • Levene’s test: ingen variansheterogenitet mellem ”groups” (her: køn) • Plot predicted mod (std.) residuals for at belyse andre former for variansheterogenitet • P-P plot eller Kolmogorov-Smirnov test for at se på residualernes normalitet
Normalitet af residualerne OK 1-sample K-S test findes under Analyze - Non-parametric tests
Forbedringer? • De vigtigste antagelser er i orden i vores første model • Mulige forbedringer: • Højere orden polynom for alder • Vekselvirkning alder og køn (så skal vi inkludere en vekselvirkning af køn med alle alder-elementer: alder, alder i anden, alder i tredje, etc.) • Idet vi ikke er interesseret i hvordan alder virker, men i prædiktionen er signifikans ikke så vigtig; men vi skal undgå overfitting!
Anden model • lnHormon = køn + alder + alder2 + alder3 + køn*alder + køn*alder2 + køn*alder3 • Levene’s test OK • Residuals vs. Predicted, alder OK • P-P plot, K-S test OK • Vekselvirkninger kan måske fjernes (ikke signifikante); vi har ikke mange parametre i modellen og vi kan være rundhåndet med model elementer. • Se på AIC: valg den med laveste værdi.
BMI • BMI = vægt (kg) / højde (m) i anden • Er måske ikke en særlig intuitivt variabel for børn; især ikke i puberteten. Skal ses som en integreret højde/vægt variabel.
lnHormon og BMI Kvadratisk fit ser ud til at være bedst
Tredje model • lnHormon = køn + alder + alder2 + alder3 + køn*alder + køn*alder2 + køn*alder3 + bmi + bmi2 + køn*bmi + køn*bmi2 • R2 er blevet mindre i forhold til sidste model. Der er fordi vi skulle smide nogle observationer ud fordi vi manglede højde eller vægt målinger. • For at kunne sammenligne R2 eller AIC skulle vi haft smidt ud alle observationer med manglede værdier fra begyndelsen af for at basere dem på samme mænge data.
Tredje model • All model checks OK • Forbedringer: • Tilføje alder/BMI vekselvirkning • Tilføje alder/bmi/køn vekselvirkning • Tilføje højre ordens polynom for bmi • Så bliver modellen stor…
Fjerde model • lnHormon = køn + alder + alder2 + alder3 + køn*alder + køn*alder2 + køn*alder3 + bmi + bmi2 + køn*bmi + køn*bmi2 + alder*bmi + alder2*bmi + alder3*bmi + alder*bmi2 +alder2*bmi2 + alder3*bmi2 + køn*alder*bmi + køn*alder2*bmi + køn*alder3*bmi + køn*alder*bmi2 +køn*alder2*bmi2 + køn*alder3*bmi2 • Vi vælger ikke at inkludere bmi3 • Stadig ikke særlig stor model
Fjerde model • Det er ikke så vigtig at modellen er lille eller at vi kan forstå effekt parametre: formålet er prædiktion. • AIC kan sammenlignes med AIC fra tredje model, lav om nødvendigt modellen mindre.
Testikelvolumen • Kun for drenge • Virker lidt mærkeligt, næsten kategorisk, med mange tæt på 0
Testikelvolumen og pubertet • Testikelvolumen er ikke vigtig i præpuberteten!
lnHormon og testikelvolumen Kvadratisk, men ikke i præpuberteten.
Menarche • Kun for piger
Menarche og pubertet • Bare interessant in puberteten selv, ikke i præpubertet eller postpubertet • Kategorisk variabel
lnHormon og Menarche • Variansheterogenitet, også efter log-transformation
Seks modeller • Lav menarche om: • Lav en ny variabel men=menarche • Recodeinto same sådan at alle drenge får men=1 • Recodeinto same sådan at alle piger ikke i puberteten får men=1 • Lav testikelvolumnen om: • Lav en ny variabel tes=testvol • Recodeinto same sådan at alle piger får tes=0 • Recodeinto same sådan at alle drenge i præpuberteten får tes=0 • Split data ved køn og pubertet
Seks modeller… • Vores omkodning laver at vi har fjernet effekter af testikelvolumen og menarche hvor vi ikke forventer dem. • Vi kan ikke nemt fjerne variabler fra de enkelte analyser med split data • Grupperne er ikke så store, så vi skal være forsigtig med alt for store modeller
En nem model • lnHormon = alder + alder2 + alder3 + bmi + bmi2 + tes + tes2 + men • Antagelser ikke OK ved kvinder i pubertet: levene’s test signifikant og P-P plot ikke smuk. • Tilføj men/alder vekselvirkning: ikke OK • Tilføj men/bmi vekselvirkning: Levene OK, P-P plot ikke smuk.
Seks modeller • Det virker ikke særlig bekvemt at køre seks modeller og at gennemse resultaterne hver gang én af modellerne skal tilpasses. • Helst skal modellerne ses efter en efter en. • Det ser ud at piger i puberteten er de vanskeligste at lave en statistisk standard for. Den kan kun med meget velvilje godtages.