420 likes | 553 Views
STATISZTIKA II. 9. Előadás. Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék. Nemlineáris regresszió. Ha a lineáris közelítés nem megfelelő nem lineáris regressziót kell alkalmazni. Megjegyzések: Elvileg bármelyik függvényt alkalmazhatjuk
E N D
STATISZTIKA II.9. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék
Nemlineáris regresszió Ha a lineáris közelítés nem megfelelő nem lineáris regressziót kell alkalmazni. Megjegyzések: • Elvileg bármelyik függvényt alkalmazhatjuk • Lehetnek változóiban vagy paramétereiben nem lineáris modellek • Csak változóiban nem lineáris modellek visszavezethetők lineárisra • Kezelésük, értelmezésük nehezebb
Gyakori nemlineáris regressziós függvények sematikus alakjai Nem monoton függvény Y Y Y X X X jövedelem és az élelmiszerek fogyasztása minőség és a termék ár műtrágya felhasználás és a termésátlag
Nemlineáris regresszió Nemlineáris modellek kezelése: • a modell linearizálása tranzformációval, • eredeti nemlineáris modell alkalmazása (számítástechnikai eszközök jelentősége, Statisztikai programok alkalmazása).
Nemlineáris regresszió Exponenciális regresszió alapfüggvénye: mind változójában, mind paramétereiben nemlineáris (inkább trendfüggvényként alkalmazzák). Ha egy ν multiplikatív maradékváltozót feltételezünk (1 körül ingadozik) , akkor az egyenlet mindkét oldal logaritmálása után a következő ez az egyszeresen logaritmikus vagy féllogaritmikus függvény. A β1 az x növekedéséhez kapcsolódó átlagos y növekedést jelenti (ekvidisztáns x változó esetén ad jól értelmezhető eredményt). A β0 az x=0 értéknél az y várható értékét mutatja.
Nemlineáris regresszió Hatványkitevős regresszió függvénye: • gyakrabban alkalmazzák, mint az előzőt, • mind változójában, mind paramétereiben nemlineáris, • logaritmálás után lineáris alakra hozható: mindkét változónak vettük a logaritmusát kettős logaritmikus (double logarithmic) függvény
Nemlineáris regresszió A becsült egyenletre felírjuk az elaszticitás függvényt: Ez azt mutatja, hogy ennél a függvénynél az elaszticitás állandó és megegyezik a kitevőben szereplő paraméterrel. Ez azt jelenti, hogy a magyarázó változó 1 %-kal nagyobb értékéhez százalékos azonos irányú elmozdulás tartozik a becsült eredményváltozóban. konstans elaszticitásúfüggvény A paraméter jelentése: az x=1 helyen mutatja az eredményváltozó értékét.
Képzettség és bér kapcsolata– hatványkitevős regresszió linearizálással
Nemlineáris regresszió Mindkét változó logaritmusát képezzük, majd ezekre lineáris regressziót illesztünk. ebből az eredeti hatványkitevős forma: A becsült egyenlet: A tanulással töltött évek 1 %-os növekedése 1,47%-kal nagyobb keresetet okoz. A β0paramétert nem értelmezzük.
Nemlineáris regresszió Ha nem linearizáljuk a függvényt akkor más eredményt kapunk. SPSS-ben megoldva: A két függvény azonos x-ek esetén közeli eredményeket ad: x=12-nél x=16-nál
Nemlineáris regresszió Az egyes országok gazdasági fejlettsége és az internet elterjedése közötti kapcsolatot vizsgáljuk 2003-ban. A linearizált alakból történt becslés eredménye: Ha az egy főre jutó GDP 1 %-kal magasabb akkor ez 1,16 %-kal növeli az internettel rendelkező háztartások arányát. SPSS-szel megoldva: a rugalmassági paraméter lassuló növekedést mutat, mivel 1-nél kisebb értékű. Az ellentétes eredmény miatt szakmailag kell eldöntenünk melyik a jobb !!! (a lineáris regresszió elemzés is felmerülhet) az első függvény, mivel gyorsuló ütemben növeli az internet használatot ?
Nemlineáris regresszió A polinomiális regresszió függvény: csak a változókban nemlineáris. A hatványokat előre kitudjuk számítani, így többváltozós lineáris regresszióvá alakítható x=x1, x2=x2, xl=xl ; a maradékváltozóval együtt a következő alakban írható fel: Előny: Az eddigi nemlineáris függvények közül a polinom adja a legkényelmesebben használható függvényformát. Hátrány: Nehéz tárgyi értelmet adni a nemlineáris tagoknak és együtthatóiknak (négyzetes, köbös stb.). Fokszám növelés!!!!!!!!
Nemlineáris regresszió Nemlineáris esetekben a kapcsolat szorosságának mérésére a korrelációs indexet (0 - 1) használjuk: Az I mutató analóg a lineáris esetben a determinációs együtthatóból vont négyzetgyökkel. Ha az illeszkedés jó 1-hez közeli az értéke Ha rossz az illeszkedés alacsony az értéke (a maradék négyzetösszeg viszonylag nagy). Nem mutatja meg a kapcsolat irányát!!!!! Lineáris esetben megegyezik az előjel nélküli lineáris korrelációs együtthatóval.
Nemlineáris regresszió Egy 1996-os vizsgálat a gazdasági fejlettség és a városi népesség aránya közötti összefüggést vizsgálta.
Nemlineáris regresszió A polinomiális (kvadratikus) regressziófüggvény egyenlete: a legfejlettebb országokban már megfordul az arány. A függvény az x=15250 USD/fő pontban éri el a maximumát (a gazdagok kiköltöznek a városokból). A regresszió pontosságát jellemezve a négyzetösszegek így a korrelációs index: közepesnél alig valamivel erősebb a kapcsolat. (másik mintavétel??)
Nemlineáris regresszió A nemlineáris modelleknél is előfordulhat, hogy egyetlen magyarázó változóval nem írható le a jelenség. A többváltozós esetekben is a leggyakoribb a hatványkitevős (kettős logaritmikus alak): A ν multiplikatív maradékváltozó 1 körül ingadozik. A függvény paramétereinek becslése a legkisebb négyzetek módszerével történik, eredeti formájában nemlineáris szélsőérték-számítással, vagy linearizált alakban a normálegyenlet-rendszer megoldásával. Statisztikai programcsomagok felhasználása A makrogazdasági elemzésekben termelési függvényekként alkalmazzák ezeket.
Nemlineáris regresszió Ennek a függvénynek is sajátja az állandó (parciális) rugalmasság azaz az eredményváltozónak a j-edik magyarázó változó szerinti parciális rugalmassága állandó:
Standard lineáris modell (SLM)feltételrendszere A regresszióban használt adatok minták vagy teljes körű sokasági megfigyelések lehetnek. A számítógépes programok eleve valószínűségi (mintavételi) hátteret feltételeznek a regressziós modellekben. A standard lineáris modell (SLM) feltételrendszere: F1: A magyarázó változók nem valószínűségi változók, hanem a különböző mintákon állandónak tekinthetők. F2: A magyarázó változók megfigyelt értékei lineárisan független rendszert alkotnak. F3: Az eredményváltozó feltételes (adott X-ek esetén feltételezett) várható értéke lineáris függvénye a magyarázó változóknak:
Standard lineáris modell (SLM)feltételrendszere A standard lineáris modell (SLM) feltételrendszere (folytatás): F4: A regressziós maradékot kifejező változó (maradékváltozó) feltételes eloszlása normális, 0 várható értékkel és állandó varianciával, azaz F5: A maradékváltozó különböző X-ekhez tartozó értékei korrelálatlanok:
Standard lineáris modell (SLM) feltételrendszerének magyarázata F1: A magyarázó változók nem valószínűségi változók, hanem a különböző mintákon állandónak tekinthetők. Kontrolált kísérlet Sztochasztikus magyarázó változójú kísérlet árpa termésátlag, műtrágya, szántás mélység előre rögzítettvéletlenszerű kiválasztás mennyiség és mélység eltérő mennyiség és mélység F2: A magyarázó változók megfigyelt értékei lineárisan független rendszert alkotnak. Ha lineáris kapcsolat van a függvény paraméterei nem határozhatók meg (nem becsülhetők) egyértelműen, parciális paramétereik nem számíthatók. F3: Az eredményváltozó feltételes (adott X-ek esetén feltételezett) várható értéke lineáris függvénye a magyarázó változóknak. A változók között lineáris kapcsolat van.
Standard lineáris modell (SLM) feltételrendszerének magyarázata F4: A regressziós maradékot kifejező változó (maradékváltozó) feltételes eloszlása normális A maradékváltozó általában több, a modellben nem specifikált tényező hatásának eredője, ezért közelítőleg normális eloszlást (hibaeloszlást) követ. F5: A maradékváltozó különböző X-ekhez tartozó értékei korrelálatlanok Az X különböző értékeihez tartozó maradékváltozók függetlenek legyenek. A gyakorlatban a feltételek tisztán ritkán teljesülnek!!
Becslések a standard lineáris modellben Az első lépés a β paraméterek (pont)becslése, amit számítógéppel végzünk. A pontbecslések torzítatlanok és konzisztensek. A második lépésben becsülni lehet a függvényértékeket: , majd ezek segítségével a reziduumok vektorát: . A harmadik lépésben a reziduális variancia becslése következik: de ez torzított.
Becslések a standard lineáris modellben Ezért helyette a torzítatlan becslőfüggvényt, a korrigált reziduális varianciát használjuk: Kétváltozós esetben a kapható. A becsült paraméterek varianciája (standard hibája) miatt számítanunk kell a paraméterek kovarianciamátrixát is. Elméleti értéke
Becslések a standard lineáris modellben Becsült értéke a magyarázóváltozók megfigyeléseiből, valamint a variancia se2 becsléseiből előállítható, és a számítógépes csomagok kiszámítják. A j-edik főátló elem a j-edik regressziós paraméter varianciája. Így a paraméterbecslés standard hibája: A j-edik becsült együttható eloszlása normális, a következő paraméterekkel: A becsült varianciát illetve standard hibát felhasználva:
Becslések a standard lineáris modellben Ez azt jelenti, hogy az SLM feltételeinek fennállásakor a becsült paraméterek egyszerű transzformáltja Student-féle t-eloszlást követ. Az 1-α megbízhatóságú konfidenciaintervallum a j-edik regressziós együtthatóra: kétváltozós esetben a szf=n-2. Az együtthatók intervallumánál fontosabb a függvényértékek intervallumának becslése. Az intervallum közepének pontbecslésekor egy x1*, x2*,…, xk*=x*T helyen keressük a becsült függvényértéket, akkor az
Becslések a standard lineáris modellben torzítatlanul becsli a sokasági függvényértéket, azaz . Az intervallumbecsléshez elő kell állítani varianciáját, illetve a standard hibáját. Kétváltozós esetben: többváltozós esetben: A konfidenciaintervallum: minimális, ha:
Megadja azokat a határokat amelyek az esetek (1-α)* 100 %-ában lefedik az elméleti regressziós függvény x* ponthoz tartozó értékét.
Hipotézisvizsgálat a standard lineáris modellben A hipotézisvizsgálatot a regresszióban két területen használjuk: • A paraméterek ill. a modell megfelelő-e? • A kiinduló feltételek teljesülnek-e? A 2.-at kellene előbb, de ez nem lehetséges csak az 1. után!!!!! A hipotézisvizsgálat többletet ad a leíró elemzéshez képest. Most a paraméterek és az egész modell tesztelését vizsgáljuk.
A paraméterek szeparált tesztelése A paraméterek szeparált tesztelésekor a nullhipotézisünk az, hogy a j-edik sokasági paraméter értéke 0, ellenhipotézisünk pedig, hogy nem az: A nullhipotézis azt jelenti, hogy a j-edik magyarázó változó regressziós együtthatója 0, azaz a j-edik változó tetszőleges elmozdulása nem befolyásolja az eredményváltozót.
A paraméterek szeparált tesztelése A próbafüggvény a nullhipotézis alatt (fennállása esetén): A regressziós együtthatók szeparált tesztelésére alkalmazott t-próba elvégzéséhez el kell készíteni a j-edik paraméter becslését, meg kell határozni a becsült standard hibát, és a kettő hányadosát kell képezni. Ha az empirikus t-érték abszolút értékben kicsi (az elméleti értéknél kisebb), akkor a nullhipotézis nem utasítható el, ellenkező esetben a nullhipotézist elvetjük, és a j-edik változót adott α szinten fontos (szignifikáns) magyarázó változónak tekintjük.
A paraméterek szeparált tesztelése Ezt a próbát regressziós t-próbának vagy parciális t-próbának nevezzük. Minden paraméterre el kell végezni külön-külön a próbát. Így képet kapunk arról, hogy az egyes változók lényeges mértékben járulnak-e hozzá az eredményváltozó magyarázatához. A próba alkalmazható akkor is, ha nem a , hanem valami más, nullhipotézist akarunk vizsgálni. Ekkor -t írunk a baloldalra. A konstansra általában nem végezzük el a próbát, de megtartjuk a modellben.
A modell egészének tesztelése Azt vizsgáljuk, hogy a magyarázó változók összességükben kielégítően magyarázzák-e az eredményváltozót. Ezt a varianciaanalízissel teszteljük. A magyarázó változók sokasági együtthatói mind 0-k, azaz Ellenhipotézisünk az, hogy létezik legalább egy olyan együttható, amely sokasági szinten nem nulla, azaz
A modell egészének tesztelése A nullhipotézis itt azt jelenti, hogy a modellünk egészében rossz, míg az ellenhipotézis azt mondja ki, hogy van legalább egy változó a modellben, amit érdemes megtartani, tehát a modellt nem lehet (nem kell) eleve elutasítani. Ezért a varianciaanalízis logikailag megelőzi a parciális t-próbát, mivel ha megállapítjuk hogy rossz a modell nem kell a paramétereket elemezni. A varianciaanalízis próbája a globálisF-próba: Ha a számított érték nagyobb vagy egyenlő, mint a táblázatban lévő érték akkor az adott α szignifikanciaszinten a modell nem utasítható el, azaz legalább egy lényeges kapcsolatot megragad.
Illeszkedés tesztjének is felfogható (goodness of fit), nagy R2 esetén utasítja el a nullhipotézist
A modell egészének tesztelése A modell egészének tesztelését a varianciaanalízis F-próbájával végezzük. A p-érték (empirikus szignifikanciaszint) igen kicsi, ezért azt mondhatjuk, hogy a modell elfogadható (magyarázza a gépkocsi árakat). Ha az egyes változókat is vizsgáljuk: 5%-os szinten a t0,975(9)=2,26 a második magyarázó változó (dummy) értéke kisebb a kritikus értéknél. 10%-os szinten a t0,95(9)=1,86 miatt már elfogadható a teljes modell.