1 / 48

STATISZTIKA II. 8. Előadás

STATISZTIKA II. 8. Előadás. Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék. Többváltozós regressziószámítás. Eddig a kétváltozós leíró lineáris modellt ismertük meg.

Download Presentation

STATISZTIKA II. 8. Előadás

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. STATISZTIKA II.8. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék

  2. Többváltozós regressziószámítás Eddig a kétváltozós leíró lineáris modellt ismertük meg. A valóságban általában az eredményváltozót nem egy hanem több magyarázó változóval lehet jól leírni. (több változó szükséges a lényeges összefüggések leírására) Ha a magyarázó változók száma (k) több (k>1), akkor többváltozós lineáris modellről beszélünk:

  3. Többváltozós regressziószámítás A modellben az X-ek egymástól függetlenül ható tényezők (ha nincs multikollinearitás) . Ennek sérülése – a multikollinearitás – nem tartalmilag probléma, hanem rontja a becslés pontosságát. Az X-ek nem valószínűségi változók. Példák: Y: termelés X-ek: termelés tényezői Y: lakásár X-ek: alapterület, elhelyezkedés, kor, felszereltség Y: háztartások X-ek: fő, m2, felszereltség, vízfogyasztása virágok száma

  4. A modell alakú, ahol y és ε vektorok n eleműek (n a megfigyelések száma), míg X oszlopainak és β elemeinek száma k+1, azaz az ismeretlen paraméterek száma. Az X mátrix első oszlopa csupa 1 elemből áll, ami konstans változót jelent, és a β0 tengelymetszet paraméter becsléséhez szükséges.

  5. A βregressziós együtthatóvektor becslése (LKN módszerrel): Kiindulva az , és az ezekből következő egyenletekből, az maradék négyzetösszeget kell minimalizálni a függvényében, azaz azt a paramétervektort keressük, amelyik mellett az négyzetösszeg minimális. A feladatot többváltozós szélsőérték-számítással megoldva azt kapjuk, hogy feltéve, hogy az mátrix inverze létezik.

  6. Az mátrix tartalma: ahol az összegzés minden esetben i=1, 2, …, n-ig megy és a változónevek (x1, x2 stb.) az X adatmátrix egy-egy oszlopát jelölik. Látható, hogy az első sorban és oszlopban a megfigyelések megfelelő összegei, az átlókban azok négyzetösszegei szerepelnek. A mátrix további elemei a változók minden lehetséges szorzatösszegét tartalmazzák.

  7. Az mátrix szerkezetéből látszik, hogy • négyzetes és szimmetrikus, • sorainak és oszlopainak száma k+1, és • a változók átlaga, varianciája, változók kovarianciája. A mátrix tulajdonságaitól függ az is, hogy létezik-e a Lineáris algebrából ismert, hogy ehhez a (k+1)*(k+1) méretű mátrix rangjának k+1-nek kell lennie. Ez akkor következik be, ha • azaz a megfigyelések száma nem kisebb, mint a becsülni kívánt paraméterek száma (kevés információból sok paraméter nem becsülhető; 3*a paraméterek száma megfigyelések száma), és • mind a változók, mind a megfigyelések lineárisan független rendszert alkotnak (ha a változók között függvényszerű kapcsolat van a becslést nem lehet elvégezni).

  8. Az Excel Eszközök/Adatelemzés/Regresszió menüje. A többváltozós regresszió paraméterei (azaz a elemei) parciális értelmezésűek. Ez annyit jelent, hogy az egyes együtthatók csak a j-edik változó közvetlen hatását tartalmazzák. A paraméter azt jelenti, hogy xj egységnyi növekedése mekkora változásával jár együtt, ha a többi x változót rögzítjük (ceteris paribus feltétel). Az egységet mindig az adott változó (xj, illetve y) mértékegységében kell érteni.(pl. lakásár: ezer Ft/m2, életkor: év)

  9. A regressziós együtthatók mellett gyakran használjuk többváltozós esetben is az elaszticitási mutatószámokat, amelyek szintén parciális értelmezésűek. Az eredményváltozónak a j-edik magyarázó változó szerinti parciális rugalmassága (elaszticitása) azt mutatja meg, hogy a megfelelő magyarázó változó 1%-os növekedése (csökkenése) hány százalékos növekedéssel (csökkenéssel) jár együtt az eredményváltozóban, feltételezve, hogy az összes többi tényező nem változik (ceteris paribus). A kétváltozós eset alapján:

  10. Az jól mutatja a rugalmasság parciális jellegét. Azt is mutatja, hogy az elaszticitás az xj-k különböző értékeinek függvénye, azaz nem állandó. Ha az elaszticitás függvény helyett konkrét számértékkel akarjuk jellemezni a jelenséget, meg kell adnunk, hogy melyik hely környezetében akarjuk értékelni az elaszticitás függvényt. Ha ez a hely például akkor az elaszticitás értéke: amely már egy százalékosan értelmezhető mutatószámot eredményez.

  11. Az függvényértékek becslése a korábbiakhoz hasonlóan történik az egyenletből. Készíthető interpoláció és extrapoláció is (a két változós esethez hasonlóan). A reziduumok vektorának előállítása: amely egy n elemű oszlopvektor, elemei az egyes megfigyelésekhez tartozó maradékok értékei. A maradékok szórásnégyzete (reziduális variancia): A négyzetgyöke a reziduális szórás azt mutatja, hogy megfigyeléseink átlagosan mennyivel térnek el a becsült regressziós egyenes megfelelő pontjaitól.

  12. Példa: A cementtermelés magyarországi alakulása és az erre ható tényezők idősorai. Az Excel segítségével végezzük el a becslést.

  13. Az Excel segítségével végezzük el a becslést: A paraméterek értelmezése: Konstans: tengelymetszetet jelent, azaz azt, hogy mindkét magyarázó változó 0 értéke mellett mekkora cementtermelés lenne várható. Mivel ez irreális feltevés (távol van a megfigyeléseinktől), ilyen esetekben a tengelymetszet-paramétert nem értelmezzük. A 30,558 paraméter azt jelenti, hogy csupán a GDP növekedése (a lakásépítések számától függetlenül) úgy befolyásolja a cementtermelést, hogy 1 százalékponttal nagyobb GDP-növekedés a cementtermelés 30,6 ezer tonna növekedésével jár együtt. A másik paraméter úgy értelmezendő, hogy ha ezerrel több lakás épül, az a cementtermelés 21,2 ezer tonnával történő növekedését vonja maga után.

  14. Számíthatjuk az elaszticitásokat is: pl. A cementtermelés GDP szerinti becsült parciális elaszticitása: ez függ attól, hogy melyik pontban vizsgáljuk. Az átlagpontban (x1átlag=101,6 és x2átlag=35958,3): Ha az időszak végi (legfrissebb) értékeket tekintjük (x1=122,6 és x2=35543), akkor Ez azt jelenti, hogy az időszak végére a cementtermelés érzékenyebb lett a GDP növekedési ütemére.

  15. A regressziót is számíthatjuk az Excel-lel. Ezek alapján a maradék négyzetösszeg: és innen a (korrigálatlan) reziduális szórásnégyzet: , aminek gyöke a reziduális szórás: Azaz a regressziós egyenes pontjai átlagosan 223,62 ezer tonnával térnek el a tényleges cementtermelési adatoktól.

  16. A pontosság és a kapcsolat mérése A paraméterek becslése után meg kell állapítani, hogy: • a becsült kapcsolat milyen erős, • milyen szoros, • vannak-e kölcsönös kapcsolatok a magyarázó változók között, • mennyire tekinthető sikeresnek az illesztés Erre ad választ a korrelációszámítás. A számítás során a kétváltozós lineáris korrelációs együtthatóból indulunk ki, amelyet az y és az xjváltozó között r(y, xj )=ryj, az xj és az xl között r(xj , xl)=rjl módon jelölünk.

  17. A pontosság és a kapcsolat mérése Rendezzük a korrelációs együtthatókat mátrix formába: Ez a korrelációs mátrix, ami a kétváltozós korrelációs együtthatókat tartalmazza rendezett formában. A mátrix négyzetes, és mérete (k+1)*(k+1). Az eredményváltozó (y) megjelenik a mátrixban, de a konstans változó nincs benne (korrelációja bármely változóval értelmetlen, a nevezőben a konstans szórása nulla szerepelne). A mátrix szimmetrikus. Szoros kapcsolatban áll a kovarianciamátrixszal. Kovarianciamátrix - olyan négyzetes mátrix, amely több változó varianciáit és kovarianciáit tartalmazza szimmetrikus elrendezésben. A regressziószámításban az eredményváltozó és a magyarázó változók kovarianciamátrixát szokták használni.

  18. A korrelációs mátrixban a kétváltozós korrelációs együtthatók a vizsgált változók közti minden közvetítőn keresztülgyűrűző kapcsolatok leírására szolgálnak. Mi kíváncsiak vagyunk a két változó közötti közvetlen kapcsolatra is, azaz a kapcsolatból kiszűrjük mindazt a hatást, ami más változók közvetítésével realizálódik. Parciális korrelációs együttható

  19. Parciális korrelációs együttható: valamely magyarázó változó és az eredményváltozó olyan korrelációs együtthatója, amelyből a többi változó zavaró hatását kiszűrték. Három változós esetben (két hatótényező van) Az y eredményváltozó és az x1 magyarázó változó közti ry1.2parciális korrelációs együttható azt mutatja, hogy milyen szoros és milyen irányú a sztochasztikus kapcsolat y és x1 között akkor, ha csak a közvetlen kapcsolatot tekintjük, és kiiktatjuk az x2 -n keresztül érvényesülő közvetett hatásokat.

  20. A parciális korrelációs együtthatók számítása általában a korrelációs mátrix inverzéből történik. Jelöljük a korrelációs mátrix inverzének elemeit q-val: Ekkor az y és a j-edik magyarázó változó parciális korrelációs együtthatója:

  21. A parciális korrelációs együtthatók előállíthatók az egyszerű korrelációs együtthatókból is elemi úton. Ha a magyarázó változók száma 2:

  22. A többszörös determinációs együttható: a kétváltozós eset determinációs együtthatójának többváltozós esetre történő kiterjesztése. A négyzetösszeg felbontásából származtatjuk: A második elem azt hangsúlyozza, hogy az y eredményváltozó és az összes többi változó kapcsolatát akarjuk jellemezni. Tartalma az, hogy a teljes regresszió által megmagyarázott eltérés négyzetösszeg hány százalékát teszi ki a teljes négyzetösszegnek. Hasonlít a H2 típusú mutatókhoz, értelmezhető PRE elv alapján, felfogható a modell magyarázó erejének is.

  23. Az alapadatokból kiszámítása egyszerű. Bármelyik kettő ismeretében a négyzetösszeg-felbontás alapján kalkulálható a determinációs együttható.

  24. A korrelációs mátrixból: Ahol qyy a korrelációs mátrix inverzének főátlóbeli eleme. A többszörös determinációs együttható előállítható közvetlenül a kétváltozós korrelációs együtthatókból. (két magyarázó változó esetén)

  25. A többszörös korrelációs együtthatót a többszörös determinációs együttható pozitív előjelű négyzetgyökeként definiáljuk: Értéke arra utal, hogy a magyarázó változók és az eredményváltozó között milyen szoros a kapcsolat. A többszörös korrelációs együttható felírható egyszerű korrelációs együtthatóként is:

  26. A multikollinearitás jellemzésekor az eredményváltozó és a magyarázó változók egy részhalmaza között keressük a kapcsolatot. • Kereshetjük a j-edik magyarázó változó és a többi magyarázó változó közti teljes magyarázó erő leírását adó determinációs együtthatót is. A 2. esetben pl. az determinációs együtthatót keresve felírhatjuk a regressziót, majd ezt becsüljük és négyzetösszegeiből előállítjuk a megfelelő determinációs együtthatót.

  27. Ha különböző számú magyarázó változót tartalmazó modellek illeszkedését hasonlítjuk össze a determinációs együttható nem jól használható. Szabadságfokkal korrigált mutatót kell alkalmazni!!!!

  28. Példa: A KSH 2001-es kistérségi adatbázisából véletlenszerűen kiválasztott 15 kistérség adatai.

  29. A három változó közötti korrelációs mátrix: Az ipar hatása erős pozitív (0,7118), a munkanélküliség hatása erős negatív (-0,7466), a kölcsönhatásuk közepes negatív (-0,3956).

  30. A parciális korrelációs együtthatók számítása pl. Az iparosodás és jövedelemképződés közötti közvetlen kapcsolat szoros és pozitív, de gyengébb mint a teljes kapcsolat (a munkanélküliség közvetett hatása miatt). nagyobb iparosodás kisebb munkanélküliség jövedelem növekedés

  31. A determinációs együttható meghatározásához a négyzetösszeg-felbontást használjuk fel: A többszörös determinációs együttható: Ez azt jelenti, hogy a kistérségi jövedelmek alakulását kb. 77%-ban tudjuk magyarázni a két változóval (a modell magyarázó ereje 77%-os). A többszörös korrelációs együttható ennek négyzetgyöke: Amely a tényleges és modellből becsült jövedelmek szoros kapcsolatát mutatja.

  32. Útelemzés Valós esetekben a magyarázó változók nem korrelálatlanok, egyik elmozdulása szükségképp elmozdítja valamely másikat is, így a parciális hatások mellett közvetett hatások is jelentkeznek és ezeket is szükséges vizsgálni a regresszióban. pl. háztartások tejfogyasztása (eredményváltozó) egy főre jutó jövedelem és a háztartásban élő gyermekek száma (magyarázó változók) A két magyarázó változó nem független egymástól, mivel a gyermekek számának növekedésével csökken az egy főre jutó jövedelem. Az egy főre jutó jövedelem parciális regressziós együtthatója csak a közvetlen hatást mutatja (növekvő jövedelem növekvő fogyasztást okoz) Teljes hatás < közvetlen hatás !!!!!!

  33. Útelemzés Legyen regressziónk most A jövedelem és a tejfogyasztás közvetlen kapcsolatát a βy1 együttható fejezi ki. A teljes hatáshoz szükség van a másik ágon realizált hatások felmérésére. Az x1 és x2 közötti kapcsolatot a két magyarázó változó közötti regresszióból kapjuk meg: A β21 paraméter azt jelenti, hogy az egy egységgel magasabb egy főre jutó jövedelem mennyivel kisebb gyerekszámmal jár együtt átlagosan. tejfogyasztás egy főre jutó jövedelem gyermekek száma

  34. Útelemzés A βy2 együttható azt mutatja, hogy eggyel nagyobb gyerekszám ceteris paribus mennyivel nagyobb fogyasztást okoz. Ezért, ha az egy főre jutó jövedelem közvetett hatását szeretnénk felmérni a fogyasztásra, a β21*βy2 szorzatot kell képeznünk. Ez azt jelenti, hogy az egy főre jutó jövedelem egységnyi növekedése a gyerekszámon keresztül hány egységgel növeli az egy főre jutó fogyasztást. A közvetlen és közvetett hatások összege adja meg a teljes hatást: Az ezt kifejező β1 paraméter az egy főre jutó jövedelem és az egy főre jutó tejfogyasztás közti kétváltozós regressziófüggvény meredekségi paramétere.

  35. Az útelemzés sémája: A nyilak a regressziós kapcsolatokat jelölik. közvetlen hatás közvetett hatás Közvetlen hatás + Közvetett hatás = Teljes hatás

  36. 20 háztartás adatai

  37. Háromváltozós becsült regressziós függvény: együtthatói parciális értelmezésűek Milyen regressziós összefüggés van a gyerekszám és az egy főre jutó jövedelem között? A teljes hatás: Kétváltozós regresszióval is megkaphatjuk ezt az értéket, ha a gyerekszám és a tejfogyasztás közötti kapcsolatot közvetlenül vizsgáljuk:

  38. Proxyk, dummyk és minőségi változók A regressziós modellekben megjelenhetnek magyarázó változóként diszkrét, ordinális szintű, nem megfigyelhető változók is. Proxy változó - nem megfigyelhető jelenség hatását pótló (helyettesítő) változó. A regresszió­számításban jellemző módon a magyarázó változók pozíciójában jelenhet meg. Pl. nemzetközi politikai légkör leírására az aranyár vagy olajár, analitikus trendszámításnál a t időváltozó (a regresszió speciális esete),

  39. Proxyk, dummyk és minőségi változók Minőségi változók kezelése: minőségi ismérvnek két változata van: férfi – nő, vezető – beosztott, ….stb. (dummy – d – változó alkalmazása) lehetőségek: • d=1 férfi d=0 nő • d=0 férfi d=1 nő • d=1/2 férfi d= –1/2 nő A paraméterek értelmezése más az egyes esetekben!!!!

  40. Használt gépkocsik futásteljesítménye, ára és törésjellemzője

  41. A becslés eredménye: -79,13 jelentése az, hogy ha egy kocsinak volt töréskára az a kínálati árát 79 ezer Ft-tal csökkenti.

  42. Ha kettőnél több változata van a minőségi ismérvnek (m kategória) akkor általában (a nullának tekintett referenciakategória mellett) m-1 számú változót használunk fel. Példa: A képzettség és a bér kapcsolata egy vállalatnál

  43. Középfokú végzettség Felsőfokú végzettség

  44. Regresszió megfogalmazása: y= havi bruttó bér x= munkában töltött évek KF; FF= A dummyk az alapfokú végzettséghez (referenciakategóriához) képest adják az eredményt

More Related