330 likes | 440 Views
Kvantitatív módszerek. Készítette: Dr. Kosztyán Zsolt Tibor kzst@vision.vein.hu http ://vision.vein.hu/~kzst/oktatas/km/index.htm. 6. Matematikai statisztika. A statisztikai megfigyelés véletlen tömegjelenségekre irányul.
E N D
Kvantitatív módszerek Készítette: Dr. Kosztyán Zsolt Tibor kzst@vision.vein.hu http://vision.vein.hu/~kzst/oktatas/km/index.htm 6.
Matematikai statisztika • A statisztikai megfigyelés véletlen tömegjelenségekre irányul. • A statisztikai minta véletlen jelenségre vonatkozó véges számú megfigyelés eredménye. Események bekövetkezésének, illetve be nem következésének hosszú megfigyelés során valószínűsége van.
Hipotézisvizsgálat • A statisztika egyik fő alkalmazási területe a döntések alátámasztása statisztikai hipotézisek vizsgálatával. • Null-hipotézis (H0): különbség hiányát állítja • Alternatív hipotézis (Hl): különbség meglétét állítja
Hipotézisvizsgálat • A nullhipotézis ismeretében egy próbastatisztikát számítunk, amelynek ismerjük az eloszlását. Az eloszlást ismerve megmondhatjuk, milyen valószínűséggel kaphatunk egy próbastatisztika értéket, ha a hipotézis igaz. • Ha a valószínűség kicsi, a hipotézist elvetjük, azaz valószínűtlen, hogy H0 igaz lenne.
Hipotézisvizsgálat • Elsőfajú hiba: H0 igaz, de elvetjük • A hiba elkövetési valószínűségét szignifikancia-szintnek nevezzük • (p=0,05) 95%, hogy H0 igaz • Másodfajú hiba: H0 nem igaz, de elfogadjuk. Baloldali tesztek Kétoldali tesztek Jobboldali tesztek H0 = H1 < H0 = H1 > H0 = H1 ≠
Statisztikai próbák • Parametrikus próbák: normál eloszlású minták • két mintát kell összevetnünk • Átlagok azonosak-e: kétmintás t-próba • Szórások azonosak-e: F-próba • Nem parametrikus próbák: teszt alkalmazása nem függ a változók eloszlásától; függetlenség- és homogenitás vizsgálat – c2próba, KS-próba
Összefüggés-vizsgálat • Több megfigyelt tényező hogyan függ egymástól • Ellenőrzött, laboratóriumi körülmények között az összefüggés függvénykapcsolatként írható le. • A társadalomtudomány területén előforduló jelenségek annyira bonyolultak, hogy az események bekövetkezése sokszor a véletlentől is függ.
Összefüggés-vizsgálat • Sztochasztikus kapcsolat: a független változó értéke nem határozza meg egyértelműen a függő változó értékét, (pl. véletlenszerűen ingadozik egy legvalószínűbb érték körül.)
Összefüggés-vizsgálat • Egyik változó változásával a másik milyen irányba és mennyit változik? REGRESSZIÓ-ANALÍZIS • Két változó között milyen irányú és mennyire szoros kapcsolat van? KORRELÁCIÓ-ANALÍZIS
Regresszió-analízis • Két változó kapcsolatát leíró függvényt kapjuk eredményül. • Sokszor feltételezünk ok-okozati kapcsolatot, de a vizsgálat nem bizonyítja azt! • Grafikusan pontdiagramra fektetett egyenes, ha lineáris összefüggést feltételezünk.
Regresszió-analízis - SPSS H1 SSR SSE SST H0 H1
Determinációs együttható négyzete: “Residual” “Regression” “Total”
Regresszió-analízis • A regressziós egyenes a vizsgálati tartományon belül érvényes, azon túl, hosszabb távon nem alkalmas predikciós célokra • A regressziós egyenes egyenlete:Y=függő/magyarázott változó X=független/magyarázó változó • Kapcsolat lehet pozitív ↗↗ , vagy negatív↗↘ • Egyenes illesztése legkisebb négyzetek módszerével történik.
Regresszió-analízis alkalmazhatóságának feltételei • E(u)=0 • VAR(u)=s2 • A hibatagok függetlenek egymástól. • x és u függetlenek. • u ~ N(0,s)
Többváltozós regresszió-analízis x1 y1 Nem feltétlen, de legtöbb esetben jó közelítésként használható. Ha a linearitás nem teljesül, akkor át kell konvertálni olyan modellé, amely kölcsönösen egyértelmű az eredeti modellünkre. Az alkalmazhatóság feltételei megegyeznek a lineáris regressziós modell alkalmazásának feltételeivel. x2 • Lineáris-e a regresszió? • Mit jelent a korrelációs együttható értéke? • Milyen feltételek mellett használható a lineáris regressziós modell? y2 x3 R=1 esetén: LINEÁRIS függvénykapcsolat a magyarázó és a magyarázott változók között! R=0 esetén: nincs LINEÁRIS függvénykapcsolat a magyarázó és a magyarázott változók között! R=-1 esetén: (negatív) LINEÁRIS függvénykapcsolat van x és y között! yn xk • E(ui)=0, i :=1,2,…,n (szisztematikus hibát nem vétettünk) • var(ui)=s2, i :=1,2,…,n (nincs heteroszkedaszticitás) • ui és uj függetlenek minden i-re és j-re (nincs autokorreláció) • xi determinisztikus nem valószínűségi változó • ui ~N(0,s2), i :=1,2,…,n • az xj-k között nincs lineáris összefüggés (nincs multikollinearitás)
Többváltozós regresszió-analízis • Magyarázó változók redukálása: • Miért? • Hogyan? • Összes lehetséges megoldás • FORWARD eljárás • BACKWARD eljárás • STEPWISE eljárás Kevesebb magyarázó változó → Kisebb a hiba varianciája. DE! torzított lesz a becslés! Fokozatos „beléptetés”. Mindig a legnagyobb parciális korrelációval rendelkező változót veszi be. Fokozatos „kiléptetés”. Mindig a legkisebb parciális korrelációval rendelkező változót veszi ki. Minden iterációban léphetnek be és léphetnek ki is elemek. Viszont a probléma nem lineáris. Nem biztos, hogy optimális lesz a megoldás.
2. példa • Mi hat a jövedelemre? • Feltételezhetjük pl., hogy • Az iskolai végzettség/elvégzett iskolai osztályok • A munkavállaló neme • A munkavállaló kora • ? • Modell egyenlet: FOJOV=b0+b1ISKOSZT+b2NEME+b3KOR+u Dummy-változó
Eredmények (1) Valamennyi magyarázó változó szükséges! Kicsi a magyarázó képesség! A modellünk és a magyarázó változóink is szignifikánsak!
Javítási lehetőségek • A magyarázóképesség javítására: • Új változók keresése (pl. a település típusa, foglalkoztatás
Korreláció-elemzés • Függ-e egymástól két változó? • A változók normál eloszlásúak • Korrelációs együttható, vagy determinációs tényező (r): Két adatsor (minta) közötti lineáris összefüggés erősségét mérő szám.
Korreláció-elemzés • Pearson féle korrelációs együttható: r • -1<=r<=1 • Nincs kapcsolat, ha értéke nulla, vagy ahhoz közeli. • Az összefüggés jellemzésére az r számértéke alapján különböző fokozatokat állítottak fel. r=±1 1>|r|≥0,75 0,75>|r|≥0,5 0,5>|r|≥0,25 0,25>|r|≥0 r=0 Függvénykapcsolat Nagyon szoros kapcs. Szoros kapcsolat Laza kapcsolat Nagyon laza kapcs. Nincs kapcsolat