230 likes | 575 Views
Diszkriminancia-analízis az SPSS-ben. Petrovics Petra Doktorandusz. Diszkriminancia-analízis folyamata. Feladat Megnyitás: Employee_data.sav. Milyen tényezőktől függ a dolgozók beosztása?. Adatok, változók X: Metrikus változók / Dummy változók
E N D
Diszkriminancia-analízis az SPSS-ben Petrovics Petra Doktorandusz
FeladatMegnyitás: Employee_data.sav Milyen tényezőktől függ a dolgozók beosztása?
Adatok, változók X: Metrikus változók / Dummyváltozók (age, educationlevel, currentsalary, beginningsalary, monthsincehire, previousexperience, minorityclassification) Adatok kizárólagossága: Pl. aki vezető, az nem hivatalnok Mindenki valamelyik csoport tagja, stb
Normális eloszlás Graph / Histogram Nonparametric Tests / 1-Sample K-S Test • n • Mahalanobis távolság Stb.
3. Multikollinearitás (vagy Pooled Within-Groups Matrices) Faktoranalízis (?)
Elemzés lefuttatásával 4. Outlier: Mahalanobis távolság 5. Homoszkedaszticitás: Box’s M Analyze / Classify / Discriminant…
Multikollinearitás (r) Homoszkedaszticitás: nemcsak variancia állandóság, de variancia-kovariancia mátrixok egyezősége is feltétel • Változók bevonása: • milyen mértékben csökken a Wilks’ λ • Milyen mértékben csökken a nem magyarázott variancia • Kisebb M-távolság • Legnagyobb F-érték • Rao’s V értékének növekedése Outlier Normál eloszlás
Output • Monthsincehire • Minority • Age (?) • STEPWISE Megmutatja, hogy vannak-e különbségek a csoportosító változó által kialakított csoportok átlagai között: ha a csoportosító változó a varianciának nagy részét magyarázza, akkor a csoportok átlagai között szignifikáns eltérés mutatkozik, és a mutató értéke 0-hoz közelít. Így az egyes változók az alapján kerülhetnek bevonásra a diszkriminanciaelemzésbe, hogy milyen mértékben képesek a Wilks’ λ értékét csökkenteni. Magas F érték, alacsony Wilks’ Lambda !!! A kevés diszkriminatív értékkel bíró változók a stepwisediszkriminanciaelemzés segítségével eltávolíthatók.
Output StepwiseStatistics: Education Level PreviousExperience CurrentSalary Age BeginningSalary
Output Vs.
Output Egyező log determinánsok (nagyon alacsony log determinánssal rendelkező csoportokat célszerű törölni, ha M szignifikáns – minél magasabb kritikus p-érték) H0: homoszkedasztikus (egyező kovariancia mátrixok) H1: heteroszkedasztikus p<0.000 szignifikancia-szinten fogadjuk el, hogy homoszkedasztikus (nagy mintaelemszámnál a szignifikancia eredménye kevésbé jelentős)
Output Stepwise: Nő a magyarázó erő Kevésbé járul a magyarázó erő növekedéséhez Szignifikáns diszkriminancia függvény p=0.000 λ=22,3% a nem magyarázott variancia (≈ ANOVA H2 inverze) KANONIKUS DISZKRIMINANCIA FÜGGVÉNY A különbözőség azon része, amit a DF1 nem foglal magába Min {p;Y kategóriáinak száma-1} = 2
Output DF külső szórásnégyzet DF belső szórásnégyzet DF által magyarázott különbözőség DF által nem magyarázott különbözőség • Többszörös korreláció a magyarázó változók és a diszkriminanciafv. között • H komplementere • 1 fv. esetében a négyzete ≈R2 (modell illeszkedés) • A DF10,8262=68,23%-ban magyarázza a csoportosító változó varianciáját DF-k a magyarázott különbözőség hány %-t magyarázzák (∑100%) Az DF183,4%-ban járul hozzá a különbözőség magyarázatához, míg a DF2csak 16,6%-ban.
Output Diszkrimináló hatás értelmezése → DF elnevezése • Változók fontossága • Kapcsolat iránya • ≈β együtthatók (parciális) • Pl. DF1-t a leginkább a jelenlegi fizetés, míg DF2-t a korábbi munkatapasztalat határozza meg • DF-k és a magyarázó változók közötti korreláció • Változók relatív fontossága (a korreláció abszolút mértékének sorrendjében) • ≈ faktor loading (határ: >0,3 fontos)
Output Diszkriminancia függvény paraméterei: bi együtthatók (A mértékegységek különbözősége miatt nem látszik a jelentősége, de ezek is diszkriminálnak) b: a változók parciális hozzájárulása a DF-ekhez (a többi változó változatlansága mellett) Dummy változók használata esetén: elemzés a használatuk nélkül → használatukkal (a kanonikus korreláció négyzetében mért különbség a Dummy változók magyarázó ereje)
Output Egy egyed ahhoz a csoporthoz tartozik, amely csoport centroidjához a legközelebb esik a diszkriminancia értéke (discriminantscore) (Mahalanobis távolság alapján) Pl: 1. személy: manager Átlagos D értékek Predictedgroupmembership Discriminantscore
Output Találati arány Helyes kategorizálás Új dolgozó: abba csoportba tartozik, amelyik centroidjától a kiszámított Mahalanobis távolság értéke a legalacsonyabb