Alternativ till  2 -test

Alternativ till  2-test Det vanliga sättet att beteckna komponenterna i teststorheten (2), dvs. med Oi, Ei, Oij och Eij är inte tillräckligt för att kunna utreda vari problematiken finns med att använda testet vid icke-OSU. För oberoendetestet: Låt pij = P (Ett element kategoriseras i cell (i , j ) ) , dvs. sannolikheten att en post i datamaterialet har ett värde på den ena variabeln (x) som hamnar i kategori i och ett värde på den andra variablen (y) som hamnar i kategori j. Marginalsannolikheten för radkategori i betecknar vi pi+ och marginalsannolikheten för kolumnkategori betecknar vi p+j

Terminologin går förstås tillbaka till sannolikhetsläran: Om en tvådimensionell slumpvariabel (X , Y ) har den simultana sannolikhetsfunktionen så beräknas den marginella sannolikhetsfunktionerna för X resp. Y som Marginalsannolikheten , pi+ , för en radkategori är alltså den marginella sannolikhetsfunktionens värde för denna kategori i den (kategoriserade) radvariabeln (x ) Marginalsannolikheten , p+j , för en kolumnkategori är alltså den marginella sannolikhetsfunktionens värde för denna kategori i den (kategoriserade) kolumnvariabeln (y )

Uttryckt i cell- och marginalsannolikheter gäller då att vid ett oberoendetest testas Cellsannolikheterna skattas som och marginalsannolikheterna som Om H0 är sann måste förstås också gälla och teststorheten mäter egentligen hur stora avvikelserna är från 0:

Skillnaden vid homogenitetstest är att radsummorna är fixa (n1 , … , nr )  Nollhypotesen skall då skrivas som

Wald’s test: Betrakta en fyrfältstabell (22 korstabell) Omformulering av nollhypotesen:

Om H0 är sann får vi: Samma ekvation fås vid utveckling av varje pij

Detta ger nu dvs. vi får en enda ekvation som representerar fyra (22) likheter. Vid en större tabell (rc) blir det (r – 1)∙(c – 1) ekvationer För en fyrfältstabell låter vi nu

Skattningen fungerar i alla urvalsdesigner om urvalsvikterna kan bestämmas. Om simultana inklusionssannolikheter också är kända: Teststorhet För (r – 1)∙(c – 1) ekvationer fås en parametervektor Teststorheten blir då en vektor/matris-produkt (förklaras närmare i kursen Multivariata metoder)

Bortfall • I ”teorin” kan varje urvalsdesign analyseras och optimala skattningar med tillhörande variansskattningar kan härledas. • I praktiken uppstår ett stort bortfall i undersökningen vars negativa konsekvenser överskuggar den optimalitet ho skattningar man lyckats påvisa. • Egentligen är det bättre att lägga ned energi på att minimera bortfallet än att utreda vilken skattningsmetodik som ger lägst bias resp. lägst varians. • Typer av bortfall: • Totalbortfall: Hela elementet saknas (inga egenskaper har observerats) • Partiellt bortfall (informulärsbortfall): Vissa egenskaper har inte observerats.

M R Hur inverkar bortfallet? Enkel konstruktion: Bortfallsstratumansatsen Målpopulation antas vara indelad i ett svarandestratum (R ) och ett bortfallsstratum (M ). …men naturligtvis vet vi inte vilket element som tillhör vilket stratum.

Populationsmedeltalet kan då skrivas och den skattning vi har från urvalet är därmed en skattning av Skattningen kan alltså inte sägas vara väntevärdesriktig. Låt vara skattningen och anta att 

 Storleken hos Bias beror på • Hur stort bortfallsstratumet är (NM ) • Hur stor skillnad det är mellan de bägge stratummedeltalen

Modell för bortfall Låt i kallas propensity score för enhet i och vad som är viktigt är hur denna beror på det som skall undersökas. (Någon svenskspråkig term existerar nog inte)

Bortfallen i en undersökning kan klassas till tre olika kategorier: • MCAR (Missing Completely at Random) • Propensity score beror varken på undersökningsvariabeln eller på bakgrundsvariabler. • Medeltalsskattningen kan här sägas vara ungefär väntevärdesriktig, dvs. bortfallet kan ignoreras. • 2. MAR (Missing at Random given covariates) • Propensity score beror här på bakgrundsvariablerna men inte på undersökningsvariabeln. •  Bortfallsmekanismen kan modelleras och skattningar kan justeras utifrån snedfördelning över bakgrundsvariablerna. • NMAR (Not Missing at Random) • Propensity score antas här bero på undersökningsvariabeln. Bortfallet kan då varken ignoreras eller justeras för utifrån bakgrundsvariabler.

Metoder för bortfallshantering: • Förebyggande av bortfall (egentligen mest viktig). Sid. 333-336 i Lohr: Allt som har med en undersöknings genomförande skall noggrant optimeras (val av datainsamlingsmetod, intervjuformulär, intervjuare, tidpunkter för intervjuer, …) • Efterhandsjustering av totalbortfall • Bortfallsuppföljning (för NMAR) • Kompensationsvägande metoder (för MAR) • Viktjustering utifrån klassificering • Poststratifiering • Raking • Kalibrering • Substitution (för MCAR) • Imputering av partiella bortfall (för MAR)

Bortfallsuppföljning (Tvåfas-sampling enligt Hansen & Hurwitz) • OSU designat för n element (fas-ett-urval)men svar har endast erhållits från nR. I denna del har beräknats • Bland de återstående nM = n – nR elementen görs ett nytt OSU med en dyrare datainsamlingsmetod av nM element där  är i storleksordningen 0.2 (20%). Utgångspunkten är att svar erhålls från samtliga i detta fas-två-urval och vi kan beräkna

En skattning av populationsmedeltalet beräknas nu som ett stratifierat medeltal: • En approximativ variansskattning för denna skattning är: • Variansskattningen blir approximativt väntevärdesriktig om svar fås från alla i fas-två-urvalet. • Vidare, om svar fås från alla i fas-två-urvalet är bortfalls-bias eliminerad. Bortfallsandelen räknas då som 0%. Om inte svar fås från alla beräknas den nya bortfallsandelen som

Exempel I en studie skickades en enkät till ett OSU om 500 personer. Bland annat ställdes frågorna ”Vad betalade du senast för en måltid på en lunchrestaurang” samt ”Tittar du regelbundet på matlagningsprogram i TV?” Svar erhölls från 310 personer med följande resultat För att komma till rätta med bortfallet gjordes en uppföljande undersökning med telefonintervjuer i ett OSU om 40 personer bland de 190 som ej besvarat enkäten. Alla besvarade de två frågorna i denna uppföljning med resultat Här är alltså  = 40/190  21%

Skattningar och konfidensintervall För genomsnittligt lunchpris:

För andelen regelbundna tittare på matlagningsprogram:

Kompensationsvägning (för MAR) • Viktjustering utifrån klassificering • Utgå från att vi känner till inklusionssannolikheten i för varje enhet i populationen. Det gör vi ju om vi har ett OSU.  Urvalsvikterna är • Används en (eller flera) av bakgrundsvariablerna för att klassindela det ursprungliga urvalet i c klasser  S1, … , Sc. Till dessa klasser förs även de som svarat  SR,1, … , S R,c • Beräkna summan av urvalsvikterna i varje klass för såväl det ursprungliga urvalet som de svarande:

Inom varje klass (j = 1, …, c ) justera urvalsvikterna för de svarande enligt • För bortfallen, sätt • Beräkna punktskattningar enligt

För ett OSU blir skattningarna speciellt enkla: • Poststratifiering • Klassificering görs på samma sätt som vid viktjustering, men här tar man redan på hur stora klasserna är i hela populationen • N1 , … , Nc och en punktskattning av populationsmedeltalet beräknas som

Raking En metod som skapar poststratifiering iterativt när klassificieringen görs utifrån fler än en bakgrundsvariabel. Kalibrering Den mest moderna av alla kompensationsvägningsmetoder, men tas ej upp i Lohr Substitution (för MCAR) Bortfallen ersätts med nya urval av element till dess att urvalsstorleken är uppnådd. Metoden kan aldrig minska bortfallet eller dess ev. bias. Används när MCAR är uppenbart och man behöver ha precision i skattningarna. Om stratifierat urval görs liknar metodiken den som används vid s.k. kvoturval, i vilka man gör urval till dess att planerade urvalsstorlekar inom varje stratum har erhållits.

Imputering • Metodik för att ersätta sakande värden på vissa av egenskaperna hos ett element. Flera varianter finns: • Medelvärdesimputering: • Samtliga element (respondenter) i urvalet klassas på motsvarande sätt som vid viktjustering. • För en respondent där värde saknas på en (eller flera) egenskaper används medelvärdet för övriga respondenter inom respondentens klass som ersättningsvärde(n). • Skall bara användas när MCAR kan antas inom den aktuella klassen.

”Hot deck”-imputering: • Klasser av respondenter görs som tidigare • Ett saknat ersätts med en annan respondents värde från samma klass. • Den andra respondenten kan väljas • sekventiellt, dvs. den respondent som var den senaste med ett värde på egenskapen innan den aktuella respondenten tillfrågades/observerades • slumpmässigt • så ”nära” den aktuella respondenten som möjligt (närmaste granne, tvillingimputering) • Regressionsimputering: • För de respondenter som har värden den aktuella egenskapen anpassas en regressionmodell (linjär, logistisk, Poisson beroende på skalan hos värdet) med andra egenskaper som förklaringsvariabler. De senare måste finnas observerade för samtliga respondenter. Den skattade modellen används sedan för att prediktera värdet där det saknas.

Mer avancerad imputering: • Regressionsimputering kan kombineras med påförda helt slumpmässiga fel och kallas då stokastisk regressionsimputering. • ”Multiple imputation” är en nyare mer algoritmisk metod som har visat sig vara effektiv Vid all imputering är det viktigt att komma ihåg att de variansskattningar man beräknar med den vanliga formlerna är underskattade. Imputeringen ger en förväntad lägre variation än vad originaldata skulle ha gett.

Alternativ till  2 -test