340 likes | 544 Views
Bevezetés a Korreláció & Regressziószámításba. Petrovics Petra Doktorandusz. Statisztikai kapcsolatok. A ss z oci áció – 2 minőségi/területi ismérv között Vegyes kapcsolat – minőségi/területi és egy mennyiségi ismérv között K orrel áció – mennyiségi ismérvek között.
E N D
Bevezetés a Korreláció & Regressziószámításba Petrovics Petra Doktorandusz
Statisztikai kapcsolatok • Asszociáció– 2 minőségi/területi ismérv között • Vegyes kapcsolat– minőségi/területi és egy mennyiségi ismérv között • Korreláció– mennyiségi ismérvek között
X (or X1, X2, … , Xp): magyarázó változó(k), független változó(k) • Y: eredményváltozó, függő változó • Ok-okozati kapcsolat: X okozza Y változását
Korrelációs mutatószámok • Kovariancia • értéke - és + közötti; • C = 0, amikor X és Y között nincs kapcsolat; • a kapcsolat irányát mutatja • nem mutatja a kapcsolat értékét!!!
2. Korrelációs együttható • A kapcsolat irányát mutatja • a kapcsolat erősségét is mutatja • 0 < r < 1 sztochasztikus kapcsolat r = 0 X és Y függetlenek r = -1 negatív☻ r = 1 pozitív ☺ • Csak lineáris kapcsolat esetében használható! • r2 – determinációs együttható: %-os formában méri a kapcsolat erősségét – hány %-ban befolyásolja X az Y-t
3. Rangkorrelációs együttható • Rangsorba rendezett adatok közötti kapcsolatot elemez • n = elemszám, d = a rangszámok közötti különbség • Függvényszerű pozitív kapcsolat = 1 Inverz kapcsolat = -1 Függetlenség = 0
1. Feladat File / Open / Employeedata.sav Van kapcsolat a - currentsalary és a - beginningsalaryközött? KORRELÁCIÓ
Analyze / Correlate / Bivariate… r Irányt és erősséget mutat 0 I r I0,3 Gyenge kapcsolat 0,3 I r I 0,7 Közepesen erős kapcsolat 0,7 I r I 1 Erős kapcsolat C Csak irányt mutat!!! + -
2. Feladat Van kapcsolat a: • current salary • previous experience (month) • month since hire • beginning salary között? Többváltozós KORRELÁCIÓ
Analyze / Correlate / Bivariate… r Irányt és erősséget mutat 0 I r I0,3 Gyenge kapcsolat 0,3 I r I 0,7 Közepesen erős kapcsolat 0,7 I r I 1 Erős kapcsolat C Csak irányt mutat!!! + -
Output Mátrix Negatív irányú (inverz) kapcsolat r C Negatív irányú (inverz) & gyenge kapcsolat Pozitív irányú kapcsolat Direkt (pozitív irányú) & erős kapcsolat
Lineáris regressziós modell • X és Y közötti kapcsolatot ábrázoló egyenes. • Az Y függ: • x1, x2, …, xp – p db magyarázó változótól • A véletlen ingadozásától (ε) • β0, β1, …, βp regressziós együtthatóktól. y = β0 + β1x + ε ahol: y – függő vagy eredményváltozó x – független vagy magyarázó változó ε – véletlen hibatag β0 – x=0 helyen β1 – a függvény meredeksége E (y) β1 β 0 x
Legkisebb négyzetek módszere y ŷi = b0 + b1X i Véletlen x
A legkisebb négyzetek módszere becsült mutatói: b0 - β0 b1 - β1 • Regressziós egyenes Ŷ = b0 + b1X • Kétváltozós normálegyenlet Σy = nb0 + b1Σx Σxy = b0Σx + b1Σx2
Scatter diagram Direkt kapcsolat Pozitív kapcsolat linear nemlineáris Inverz kapcsolat Negatív kapcsolat
Hatványkitevős regresszió(Power) Y = a Xb logY = loga + b logX ↓ ↓ ↓ V = b0 + b1 ∙ x b1 = b b0 = lga
Exponenciális regresszió(Compound) Y = a bx logY = loga + logb x ↓ ↓ ↓ V = b0 + b1 ∙ x b1 = lgb b0 = lga
2. Feladat File / Open / Employee data.sav Milyen természetű a kapcsolat a fizetés és az életkor között? ? Új változó létrehozása!
Új változó: életkor = adott év – születési dátum (ÉV!) (date of birth) Analyze / ComputeVariable… This year
Analyze / Regression / CurveEstimation… • Lineáris • Compound • Power Diagram
Output Lineáris Compound Power Itt a legnagyobb az R2
Output View… Melyik regresszió-függvény illeszkedik a legjobban? • Mi az oka a szóródásnak? • Nemek szerinti megoszlás / • Munkatípus szerinti megoszlás!
Nemek szerint csoportosítva Általánosságban véve a férfiak fizetése magasabb, de a szórás itt nagyon magas.
A 3 munkakategóriát elkülönítve Data / Split File... Graphs / Scatter/Dot… / Simple
Fit line… Output View: Dupla kattintás az ábrába – Chart Editor Elements / Fit Line at Total („Csúsztatott”)
A hivatalnokok esetében a regressziófüggvény csökken, a többi esetben nő. MIÉRT? (A hivatalnokok fizetése teljesítmény alapú.)
Regresszió Analyze / Regression / Linear…
Korrigált többszörös determinációs együttható Többszörös korrelációs együttható Többszörös determinációs együttható Összehasonlíthatóvá teszi a többszörös determinációs együtthatót a sokaságon belül. Kiszűri a különböző nagyságú mintákból eredő, különböző függő változó számú, különböző elemszámú (n) és független változó számú (p) sokaságokból eredő hibákat. Az összes változónak a függő változóra gyakorolt hatását fejezi ki Megmutatja, hogy a függő változó hány %-át határozza meg az összes független változó együttvéve. A függő változót (current salary) 2,1%-ban határozza meg ez a regressziós modell. Gyenge kapcsolat
b0 b1 Minden szignifikanciaszinten elfogadható a modell. Regresszió egyenes: ŷ = b0 + b1X b0:X = 0 helyen mennyi az Y. Ha 0 évesek a dolgozók, akkor a keresetük 41543,805$. (Nincs értelme.) b1: ha az X 1 egységgel nő, mennyivel változik az Y. Ha a dolgozók életkora 1 évvel nőne, a fizetésük 211,609$-ral csökkenne.