460 likes | 684 Views
STATISZTIKA II. 4. Előadás. Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék. Becslés EV mintából. EV minta jellemzői FAE mintával szemben: Mekkora az N nagysága (alapsokaság nagysága), nincs visszatevés, elemeivel adott sokaság (nem eloszlásával)
E N D
STATISZTIKA II.4. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék
Becslés EV mintából EV minta jellemzői FAE mintával szemben: • Mekkora az N nagysága (alapsokaság nagysága), nincs visszatevés, elemeivel adott sokaság (nem eloszlásával) • Az egymást követően kiválasztott mintaelemek nem függetlenek egymástól • Átlag eloszlása nem pontosan normális, Mintabeli arány hipergeometriai (nem binomiális), Student eloszlás nem vezethető le, Khi-négyzet eloszlás sem érvényes
Hipergeometriai eloszlás: Binomiális eloszlás:
Becslés EV mintából EV minta jellemzői: nem túl kis minták esetén a mintából számított átlag, értékösszeg, arány közelítőleg normális eloszlást követ. Ezért csak nagymintás eredményeket tárgyalunk.
Becslés EV mintából Az átlag becslésekor felhasználjuk azt, hogy a mintaátlag várható értéke nem független mintaelemek esetén is megegyezik a sokasági átlaggal, azaz a mintaátlag torzítatlan pontbecslést ad a sokasági átlagra: Mivel véges számú (N) sokasági elemet feltételezünk, a sokasági várható érték (μ) célszerűen helyettesíthető -gal.
Becslés EV mintából A mintaátlag varianciája (a nem független mintaelemek miatt) egy véges korrekciós faktorral szorzódik:
Becslés EV mintából véges korrekciós faktor: mindig pozitív, kisebb 1-nél azaz az EV mintából való becslés pontosabb (hatásosabb), mint a hasonló méretű FAE mintából, lényegi eleme a kiválasztási arány: ha kicsi a faktor közel áll 1-hez.
Becslés EV mintából A sokasági átlag EV mintából történő intervallumbecslése nem túl kis minták (30 vagy felette) esetén hasonló a FAE mintáéhoz, de a standard hiba szorzódik a véges korrekciós faktor négyzetgyökével, és a mintanagyság miatt feltételezzük, hogy akár ismeretlen sokasági szórás esetén is a z szorzót használjuk t helyett. Ha a nem ismert, akkor s szerepel helyette.
Minta elemszám Ha felírjuk az 1-α megbízhatósághoz tartozó intervallum határokat, azt kapjuk, hogy Ezt n-re átrendezve azt kapjuk, hogy
Minta elemszám A szükséges mintanagyság a variancia növekedésével nő, ami azt jelenti, hogy nagyobb sokasági szóródás esetén azonos megbízhatóság mellett azonos pontosság eléréséhez nagyobb minta szükséges. Ha a megbízhatóságot mutató z nő, minden más tényező változatlansága esetén n is nő, azaz a nagyobb megbízhatóság nagyobb mintát igényel. Ha pontosabb becslést akarunk elérni, akkor szűkebb intervallumot keresünk, azaz Δ értékét csökkentjük, ami növeli n-t. Ez azt jelenti, hogy nagyobb pontosság eléréséhez nagyobb minta szükséges.
Értékösszeg becslés A gazdaságstatisztikában (pl. összes GDP becslése mintából, lakossági rétegek összes jövedelmének becslése) A minta értékösszegből kiindulva: ad torzítatlan becslést a sokasági értékösszegre. A mintából számított értékösszeget felszorozva a kiválasztási arány reciprokával, kapunk torzítatlan becslést a sokasági értékösszegre. A N/n szorzó (súly) megmutatja, hogy egy mintaelem hány sokasági elemet reprezentál.
Értékösszeg becslés pl. 5%-os kiválasztási arány esetén a szorzó azaz egy mintaelem átlagosan 20 sokasági elemet képvisel Teljeskörűsítés: A hivatalos statisztikában használják, amikor a mintabeli értékösszegből becsüljük a sokasági értékösszeget. Értékösszegbecslés esetén az átlagra kapott intervallumhatárokat meg kell szorozni a sokaság nagyságát jelentő N-nel.
Becslés EV mintából 2004-ben a H jelű nemzetgazdasági ág (szálláshely-szolgáltatás és vendéglátás) bruttó hozzáadott értékének becslése (EV minta) N=10003 n=300 minta BHÉ=3360 millió Ft minta szórás=16,8 millió Ft Egyszerű pontbecslés a mintabeli értékösszegből: N/n=33,34 szorzó (súly) 3360 * 33,34=112034 millió Ft
Intervallumbecslés (átlagból kiindulva): véges korrekciós faktor négyzetgyöke: 95%-os megbízhatóságnála z=1,96; az intervallum félhosszának becslése: az értékösszegre. Az intervallum határai: 93,3 és 130,7 milliárd Ft
Sokasági aránybecslés A P sokasági arány becslésekor elegendően nagy mintával dolgozunk normális közelítést alkalmazzuk. A mintából számított arány torzítatlanul becsli a P sokasági arányt és a standard hiba a véges korrekciós faktor négyzetgyökével szorzódik. Intervallumbecslésünk tehát:
Sokasági előfordulás, gyakoriság becslése Ha nem a sokasági arányt, hanem egy előfordulást, gyakoriságot akarunk becsülni, akkor először becsüljük a megfelelő arányt, majd ezt szorozzuk a sokaság nagyságával. A kapott N∙p becslőfüggvény tulajdonságai a p tulajdonságaiból adódnak. Itt is, mint az értékösszegbecslésnél, csak a konstans sokasági elemszámmal (N) kell szorozni a standard hibát, illetve az intervallumhatárokat.
Kétmintás becslések Különbség Hányados Eddig 1 mintából 1 jellemzőt becsültünk, de lehetséges 2 vagy több mintából is a becslés. Két sokaság és az azokból vett minták legfőbb jellemzői:
Kétmintás becslések Páros minták: ha két sokaság elemei értelmesen egymáshoz rendelhetők, párosíthatók. Mind a megfelelő sokaságok, mind a minták elemszáma megegyezik. Jobb, pontosabb következtetést lehet levonni (a párosság információt hordoz) pl. • a férj és a feleség vásárlási szokásainak vizsgálata, • ugyanazon személyek vizsgálata kezelés előtt és kezelés után (orvosi / biológiai kísérletekben), • ugyanazon gazdasági szervezetek eredményei egy intézkedés meghozatala előtt és után.
Kétmintás becslések Független minták: ha a megfelelő mintaelemek elemi szinten nem párosíthatók össze. pl. • két ország makromutatóit vetjük össze (termelékenység, egy főre jutó jövedelem, …) • a sokaság párosítható, de összekeverjük az elemeket Független minták elemszáma nem kell, hogy azonos legyen. Páros sokaság páros minta Független sokaság független minta
Különbségbecslés független mintákból Becsüljük az különbséget független mintákból. A pontbecslés (az intervallum közepe) a Ezt követően a mintából becsülnünk kell a közös szórásnégyzetet. Ezt a becslést a mintából számított kombinált (pooled) szórásnégyzettel végezzük el: Ami a két becsült szórásnégyzet súlyozott átlaga. Ebből a különbség standard hibája
Különbségbecslés független mintákból Belátható, hogy a Amiből a konfidencia-intervallum alsó és felső határai:
Kétmintás becslések: a különbség becslése 2005-ben épült lakások nettó építési költsége (Ft/m2) Budapesten (20 lakás) és Pécsett (10 lakás) Határozzuk meg a különbség konfidencia-intervallumát 95%-os megbízhatósággal (a költségek normális eloszlását feltételezve)
Kétmintás becslések: a különbség becslése A δ becslőfüggvénye lesz, értéke 40000Ft/m2. A közös sokasági szórásnégyzet becslése: standard hiba
Kétmintás becslések: a különbség becslése Így levonható az a következtetés, hogy ez az intervallum nem tartalmazza a nullát, ami azt jelenti, hogy a két város között az építési költségeket illetően valóságos a különbség, ez a különbség nem tudható be csupán annak, hogy véletlen minták alapján számítottuk.
Becslés rétegzett mintából A sokaságban lévő heterogenitást lehet-e csökkenteni?? A becslőfüggvények varianciája (standard hibája) kisebb sokasági variancia esetén kisebb. Ha a sokaság homogénebb, pontosabb becslések készíthetők. Ezért a becslések pontosabbá tételére alkalmazzák a rétegzést. (mintavétel előtt, külső információk alapján képeznek a sokaságból homogén részsokaságokat (rétegeket)
Becslés rétegzett mintából Társadalomstatisztikai felvételekben (háztartás az egység): a háztartás nagysága, a háztartásfő iskolai végzettsége, a munkaerőpiacon betöltött státusza (aktív, munkanélküli, nyugdíjas, …) szerint Gazdaságstatisztikai felvételekben ( pl. vállalkozásokra vonatkozóan): a vállalkozás nagysága, működési területe, ágazati, regionális hovatartozása, …. szerint Politikai-közvéleménykutatási felvételekben: (pl. választópolgároktól) a megkérdezett kora, iskolai végzettsége, pártszimpátiája, …. szerint
A sokasági átlag becslése rétegzett EV mintából A rétegzett becslésnél azt feltételezzük, hogy a rétegek száma M, és a kiválasztás a következő séma szerint történik: Y11Y21…YN11; Y12Y22…YN22; Y1MY2M…YNMM; 1. sokasági réteg2. sokasági réteg M-edik sokasági réteg y11y21…yn11; y12y22…yn22; y1My2M…ynMM; • mintabeli réteg2. mintabeli réteg M-edik mintabeli réteg A j-edik (j=1, 2, …, M) sokasági átlagot -vel, a j-edik mintaátlagot -vel jelöljük. A j-edik rétegben a sokaság elemszáma Nj, a mintáé nj. Szükséges még a részsokaságok varianciája (általános eleme σ2j), valamint ezek becslései rétegenként torzítatlanul (s2j).
A sokasági átlag becslése rétegzett EV mintából A becslés tárgya a sokasági főátlag, amely felírható a részátlagok súlyozott számtani átlagaként: Ekkor, rétegenként elkészíthetők a rétegátlagok torzítatlan becslései.
A sokasági átlag becslése rétegzett EV mintából A főátlag torzítatlan becslése a következő: ahol a Wj súlyok az egyes sokasági rétegek relatív nagyságát jellemzik.
A sokasági átlag becslése rétegzett EV mintából A becslőfüggvény azt mondja, hogy rétegzett minta esetén a rétegminták átlagait sokasági súlyokkal átlagolva, torzítatlan becslést kapunk a keresett sokasági főátlagra. Ha a minta arányosan rétegzett volt, akkor a mintasúlyokat is használhatjuk A becslőfüggvény és a mintabeli súlyokat tartalmazó becslőfüggvény megegyezik:
A sokasági átlag becslése rétegzett EV mintából A rétegzett minta a sokasági súlyokkal átlagolva mindig torzítatlan pontbecslést ad a sokasági átlagra. A rétegzett minta, csak ha arányosan rétegzett ad a mintasúlyokkal torzítatlan pontbecslést a sokasági átlagra.
Becslés rétegzett mintából A rétegzett átlagbecslés varianciája a rétegátlagok varianciáiból, majd ezeket összesítve a főátlag varianciája is számítható. Mivel a j-edik részátlag varianciája EV minta esetén
Becslés rétegzett mintából A rétegzés nagy előnye, hogy csökkenti a becslés varianciáját. (a rétegvarianciák nem súlyozódnak össze, így ha Wj arányt jelent (0 és 1 közötti számot), akkor négyzetére igaz, hogy Ezek összege is kisebb lesz 1-nél, ezért a képlet nem valódi súlyozást jelent, hanem a rétegvarianciák valamiféle „összehúzó” kompozícióját.
Becslés rétegzett mintából Arányos rétegzés esetén a variancia a következő formára egyszerűsíthető: ahol a belső szórásnégyzetet jelent. Az n elemű EV minta esetén az átlag (nem rétegzett átlag) varianciája Ez abban különbözik az arányos rétegzés utáni becslés varianciájától, hogy ott helyett szerepelt.
Becslés rétegzett mintából Mivel a varianciafelbontás tétele alapján , amiből következően , ami ismét a rétegzés kisebb varianciáját mutatja. A vegyes kapcsolat szorosságát jellemző H2mutató akkor vesz fel nagy értéket, ha a kapcsolat erős (csoportképző és mért ismérv között), azaz ha a varianciafelbontásban komponens súlya nagy. Ha a rétegképző ismérv és a mért ismérv kapcsolata szoros, akkor súlya kicsi lesz, ami a rétegzés hatékonyságára utal. Mivel a sokasági variancia nem mindig ismert, ebben az esetben a korrigált nj– 1-gyel osztott torzítatlan variancia becslést kell végeznünk.
Becslés rétegzett mintából A pontbecslés után az intervallumbecslésre áttérve feltételezzük az átlagbecslés normális eloszlását. Így a rétegzett mintából történő átlagbecslés becsült standard hibája alapján: és az intervallumbecslés:
Becslés rétegzett mintából Nagy sokaságok esetén (a gyakorlatban ezek a jellemzők) az EV minta helyett az egyszerűbb FAE minta is alkalmazható, így a becslési formulákból a véges korrekciós faktor gyakran elhagyható. Ha az minden j esetén (minden rétegben) nagyobb 0,99-nél, akkor elhagyható, illetve 1-nek tekinthető.
Magyarországi szállodák árainak becslése - becslés rétegzett mintából (értékösszeg-becslés) 2004. évben a magyar szállodák átlagos egy éjszakára jutó díját, és a szállodák ebből adódó összes éves bevételét szeretnénk becsülni. A becslést rétegzett mintából végezzük el. 95%-os megbízhatósági intervallumban kívánjuk megkapni.
Magyarországi szállodák árainak becslése - becslés rétegzett mintából
Becslés rétegzett mintából Célszerű kiszámítani a W sokasági súlyokat:
Becslés rétegzett mintából Az átlag varianciájának becslése:
Becslés rétegzett mintából A becsült standard hiba:
Becslés összetett minták és mutatók esetén A gyakorlati statisztikában nem ritka a bonyolultabb mutatók és összetett mintavételi tervek alkalmazása, általában a sokasági eloszlást sem ismerjük. Az egyetlen rendelkezésre álló mintából többet készítünk, majd az így kapott mintákból külön-külön készítünk becsléseket és a minták átlagaiból vonunk le következtetéseket.
Becslés összetett minták és mutatók esetén Csoportosításuk: • független részminták módszere (1946 Mahalanobis; a meglévő mintát feldarabolja több részmintára) • jackknife módszercsalád (először az első, majd a második, végül az utolsó minta elemet elhagyva n számú n-1 elemű másodlagos mintához jutunk • bootstrap módszer az induló mintából (parent sample) visszatevéssel választ ki nagyszámú véletlen mintát Ezeket számítógép intenzív módszereknek nevezik.