340 likes | 571 Views
Kapitel 10. Asymptotic evaluations Dan Hedlin. Skäl till att asymptotiska resonemang är något att ha. I det här sammanhanget: n blir oändligt stort, dvs helt orealistiskt, men: De asymptotiska resultaten gäller approximativt ofta redan när n = 100 (uttryck: ”large sample” som adjektiv)
E N D
Kapitel 10 Asymptotic evaluations Dan Hedlin
Skäl till att asymptotiska resonemang är något att ha • I det här sammanhanget: n blir oändligt stort, dvs helt orealistiskt, men: • De asymptotiska resultaten gäller approximativt ofta redan när n = 100(uttryck: ”large sample” som adjektiv) • Man kan se saker i de asymptotiska resultaten som man inte skulle se annars • Praktiskt: framkomlig väg rent matematiskt
Ändliga populationer • Man tänker sig att både N och n går mot oändligheten (samtidigt, t.ex., som n /N bevaras) • Exempel: Godambe-Joshis nedre gräns för varians av en skattning av medelvärde
Kap 10, innehåll • Punktskattningar • Bootstrap • Robusta skattningar • Test • Intervallskattningar
Grundläggande syn • Oändlig population • En följd av estimatorer för en följd av stickprovsstorlekar (som går mot ) • ”merely by performing the same estimation procedure for each sample size n” • Dock tillåtet med olika fördelning för varje estimator så länge det är samma familj
Konsistens • En estimator är konstistent om den konvergerar i sannolikhet mot sanna värdet för alla • Egentligen följd av estimatorer är konsistent • Tolkning: en konsistent estimator blir bättre och bättre för ökande stickprov • En linjär funktion av en estimator är konsistent om estimatorn är det (teorem 10.1.5)
VVR medför konsistens • Följer av Chebychevs olikhet att:Om varians och bias går var för sig mot 0, så är estimatorn konsistent (teorem 10.1.3) • Så för ”vanliga” estimatorer och ”vanliga” fördelningar medför unbiasedness konsistens
Ändliga populationer • Design-baserad inferens: det som uppfattas slumpmässigt är vilket stickprov man råkat få. X-värden uppfattas ej som slumpmässiga • Design-konsistens är i praktiken likadant som konsistens enligt ovan • Men tvärtom: design-konsistens medför design-unbiasedness
Gränsvärden för varians • Limiting variance: omdå är 2variansgränsvärdet • Asymptotisk varians: om fördelningen för konvergerar mot normalfdl då är dennas varians den asymptotiska variansen • Ofta lika
Effektivitet • En estimator är effektiv (alt. asymptotiskt effektiv) om den når Cramér-Raos gräns, dvs kan inte bli bättre • ML-skattningar är konsistenta och effektiva (men inte nödvändigtvis vvr) • Svaga ”regularitetsvillkor” för detta: dock gäller inte detta om fördelningens support beror av parametern • Jfr Enemy tank problem: ”supereffektiv” estimator
Relativ asymptotisk varians • Kvoten av två estimatorers asymptotiska varians • ARE: asymptotic relative variance • Relativ varians: kvoten av två estimatorers faktiska varians
Variansberäkning • ”Vanlig” beräkning utifrån fördelning • Taylors teorem • Appr med Cramér-Raogränsen • Blandad fördelning • Resamplingmetoder
Exempel på Taylors teorem • V(X) är bekant • Vad har g(X) för varians? • De två första termerna i Taylorutvecklingenutvecklad i punkten • Notera specialfallet V(kX) • Även fallet då tredje termen tas med (osv)
Repetition Cramér Raos olikhet • Den minsta variansen för en estimator W(X): • Villkor: måste kunna kasta om integral och derivata. Kan inte göra detta om supporten beror av parametern (se Leibnitz regel)
Fisherinformationen • Ett tal (eller symbol som representerar ett tal); ju större desto mer info
Om alla xi oberoende är informationen additiv, dvs infon för stickprovet är summan av delarna
Approximation med Cramér-Rao • För beräkningar av variansen är det bättre att använda den observerade informationen än den förväntade • Approximativ varians för en (ML-)skattning: utvärderad i punkten • Notera att om parametern bara består av värdet är täljaren 1 och den approximativa variansen är 1/informationen
Appr varians för ML • Fungerar bäst om estimatorn monoton i • Eftersom Cramér-Rao-gränsen inte behöver uppnås kan den approximativa variansen bli för liten (dvs ett approximationsfel åt ”fel håll”)
Blandad fördelning • Med sh tas X ur en fördelning, med sh 1- tas X ur annan fördelning • Vad är V(X)?
Bootstrap, jackknife • Flera användningsområden men här att skatta variansen • Båda går ut på att dra en mängd underurval, skatta för varje underurval och sedan beräkna medelvärde e.d. av skattningarna • Jackknife ”delete one”: drar n underurval där man i tur och ordning utesluter en observation.
Parametrisk bootstrap: 1. antag familj av fördelning2. skatta parametrar (t.ex. ML-skattningar)3. generera B stickprov med n slumptal 4. vardera ur denna speciella fördelning5. beräkna det som behöver beräknas; om ska skattas, räkna andelen stickprov som uppfyller villkoret . Det är den frekventistiska tolkningen av en sannolikhet.
Icke-parametrisk bootstrap: dra n observationer ur de befintliga, observerade observationerna med återläggning. Upprepa B sådana urval. B=200 ganska vanligt. • För varje underurval får man en punktskattning • Medelvärde av dem • Stickprovsvarians för dvs
Approximativ fördelning • Deltametoden: omdå
Robusta estimatorer • Robust mot vadå? • (något) fel antagande om fdl • Avvikande värden (outliers) • Klassiskt exempel på robusthet mot avvikande värden: medelvärde och median • Breakdown point: hur stor andel av stickprovet kan man ersätta med innan skattningen blir
M-estimatorn • Vanligaste generella robusta estimatorn • Estimating equation definierar estimator implicit • Det värde som satisfierarär M-skattningen • Generalisering av ML-skattning: (ger maximum)
ML och M lika omm • Annars har M alltid strikt större varians än ML • Variansförlusten kan ses som en försäkringspremium att betala • Finns många vettiga val av • För kriterier, se Hoaglin, Mosteller och Tukey; Understanding, robust and exploratory data analysis, s. 365 • Biweight är ett val • Identitetsfunktionen ger medelvärde
Hypotestest • Hur får man ut ett p-värde ur ett likelihood-kvottest? • Man har en teststatistika och en fördelning för denna • Vad har LR-statistikan för fördelning? • Med enkel nollhypotes så gåri fördelning (vanliga regularitetsvillkor) • Kallas G2-statistika
Med en nollhypotes som inte är enkel blir frihetsgraderna i chi-2-fördelningen skillnaden mellan antalet fria parametrar och antalet fria parametrar under noll-hypotesen • H0 förkastas ommdär är nivån (size) och är antalet frihetsgrader
Normalfdl • För många andra test, approximera teststatistikans fdl med normalfdl • Om så ( i sannolikhet + Slutkys teorem) • Om Wn är en ML-skattning, roten 1/informationen istället för Sn
Waldtest • Teststatistika där 0 är parametervärdet (eller ett parametervärde) under nollhyptesen • Förkasta om (om tvåsidigt test) • Kontinuitetskorrektion förbättrar (s. 105-106)
Scoretest • Teststatistikadär under enkel nollhypotes • Beviset av Cramér-Raos olikhet ger att • Teorem 10.1.12 ger • Förkasta om
Teorem 10.1.12: • Krav: regularitetsvillkor för ML-skattningar samt att är en kontinuerlig funktion
Ytterligare test • Teststatistika av samma form som • Wn kan vara en M-estimator • Sn kan vara en bootstrap-skattning
Intervallskattningar • Använd test och invertering av dessa • Använd pivotal kvantitet