Többváltozós adatelemzés

Többváltozós adatelemzés 10. előadás

Főkomponens elemzés • Adatokban rejlő belső összefüggések feltárására használják • Információsűrítésre alkalmas módszer • Különbséget kell tenni a főkomponens és az ún. főfaktor modellek között, mi csak a főkomponens modellekkel foglalkozun

Főkomponens modell • Adva van x1, x2, …, xn változó. Szeretnék lineáris kombináció segítségével olyan új mesterséges (látens) változót készíteni, aminek a varianciája maximális. y1=a1*x1+a2*x2+…+an*xn

Főkomponens elemzés • A maximális variancia feladatot valamilyen korlát mellett kell elvégezni. A szokásos korlát az, hogy a lineáris transzformáció vektora egységnyi hosszúságú legyen: a12+a22+…+an2=1 • Ok: Független változók esetén az összeg variancája a négyzetes súlyokkal péződij var(a1*x1+a2*x2)=a12*var(x1)+a22*var(x2)

Főkomponens elemzés • A továbbiakban feltételezzük, hogy x1, x2, …, xn változók ‘centrálva’ vannak (0 a várható értékük). Ha ez nem így lenne, akkor levonjuk belőlük az átlagot var(y1)=y1Ty1= =a12var(x1)+a22var(x2)+…+an2var(xn)+ +2a1a2kovar(x1,x2)+2a1a3kovar(x1,x3)+ +….+2an-1ankovar(xn-1,xn)

Főkomponens elemzés • Var(y1)=y1Ty1=aTCa, ahol ‘C’ a variancia-kovariancia mátrix. • max(aTCa), feltéve, hogy aTa=1 • L=aTCa-λ(aTa-1) -> max • Deriváltat tegyük egyenlővé 0-val: • Ca- λa=0 -> (C- λE)a=0 • Sajátérték feladat

Főkomponens elemzés • A variancia-kovariancia mátrix sajátértékei keressük. • A sajátértékekhez tartozó sajátvektorok adják a keresett lineáris kombinációt • A variancia-koariancia mátrix szimmetrikus és pozitív definit, ezért a sajátértékek pozitívok lesznek

Főkomponens elemzés • Amennyiben a kovariancia mátrixot elemezzük, az eredmény függ a változók skálájától, ha ez nem kívánatos, akkor sztenderdizálni kell a változókat, ami azt jelenti a gyakorlatban, hogy nem a kovariancia mátrixot, hanem a korrelációs mátrixot elemezzük.

Főkomponens elemzés • Sajátértékek összege megegyezik a diagonálisban lévő elemek összegével. Korrelációs mátrix esetén a diagonálisban végig 1-esek szerepelnek, ezért a diagonálisban szereplő elemek összege (a mátrix nyoma) megegyezik a változók számával. Kovariancia mátrix esetén nincs ilyen összefüggés

Főkomponens elemzésKiadások

Főkomponens elemzés

Főkomponens elemzés • Az SPSS (és általában a statisztikai csomagok) nem a sajátvektorok értékét adják meg, hanem az ún. ‘komponens’ mátrixot közli, ami kapcsolatban áll a sajátvektorokkal, de nem egyezik meg vele. • Az ún. ‘component loading’ megadja a főkomponensek és az eredeti változók közötti korrelációt

Főkomponens elemzés • Az x változók és a főkomponensek közötti korreláció: • kovar(X,Y)=XTY= XT(XA)=(XTX)A=ΛA, mivel A sajátvektorok mátrixa. • Amennyiben X mátrix sztenderdizált változókat tartalmaz, a ‘C’ kovariancia mátrix helyett R korrelációs mátrix szerepel • korrel(xi,yj)=kovar(xi,yj)/sqrt[var(xi)var(yj)]= =kovar(xi,yj)/sqrt[var(xi)*λj]

Főkomponens elemzés • Sztenderdizált x változók esetén: • korrel(xi,yj)=kovar(xi,yj)/sqrt[var(xi)*λj]= = λj*aj /sqrt[λj]=sqrt[λj]*aj • Tehát a komponens mátrixban szereplő értékek, nem egységnyi hosszúságú vektorok, hanem hosszuk a sajátérték gyöke

Főkomponens elemzés

Főkomponens elemzés • Főkomponens elemzés során tehát egy másik bázisban (a sajátvektorok alkotta bázisban) írjuk fel az adatokat. • A sajátvektorokat (az eredeti változók lineáris kombinációit) látens változóknak hívjuk • A sajátvektorok (főkomponensek) merőleges egymásra

Főkomponensek értelmezése • A főkomponens elemzés akkor segít, ha a főkomponenseknek jelentést tudunk adni • A főkomponensek értelmezésénél a komponens mátrix alapján azt vizsgáljuk, hogy melyik főkomponens melyik eredeti változóval korrelál

Főkomponensek értelmezése • főkomponens: nagyság • főkomponens: fejlesztés • (részben humán is) • Működtetési költségek • Pedagógus állomány

Főkomponensek értelmezése • A főkomponensek értelmezése nem mindig egyértelmű és nem mindig egyszerű feladat. • Akkor jó a főkomponensek értelmezhetősége ha az eredeti változók csak egy főkomponenssel korrelálnak erősen • Az előbbi példában nem ez a helyzet

Főkomponensek száma • Általában nem szoktuk az összes főkomponenset megtartani, csak a ‘jelentőseket’. • A főkomponensek jelentőségét a varianciájuk (sajátértékük) mutatja. • Alapbeállításként az 1-nél nagyobb főkomponenseket tartjuk meg (1 eredeti változónyi információnál többet tartalmaznak)

Főkomponensek száma

Kommunalitás • Amennyiben nem tartjuk meg az összes főkomponenset,nem tudjuk az eredeti változók varanciáját teljes mértékben reprodukálni. • XTX=C=AΛA • Var(xi)=(ai*sqrt[λj])T*(ai*sqrt[λj]) • Ha csak r főkomponenst tartunk meg,a akkor a reprodukált variancia (a kommunalitás) a komponens mátrix első r elemének négyzetösszege

Kommunalitás 0,846^2=0,716

Kommunalitás 0,846^2+(-0,303)^2=0,808

Kommunalitás • A kommunalitás értelmezhető R2 mutatóként is. Valamelyik x változóra, mint eredményváltozóra regressziós modellt építünk a r db. Legnagyobb varianciájú főkomponens segítségével. A modell R2 mutatója a kommunalitás.

Főkomponensek forgatása • Amennyiben nem tartjuk meg az összes főkomponenset, a jobb értelmezhetőség kedvéért a megoldást elrogathatjuk • Sokféle forgatás létezik, a legnépszerűbb a varimax forgatás, amely esetén a főkomponensek merőlegesek maradnak

Varimax forgatás • A komponens mátrix elemeit úgy forgatjuk, hogy az oszlopokban a variancia maximális legyen, feltéve, hogy a főkomponensek továbbra is merőlegesek. • A forgatás numerikusan egy iteratív folyamat végeredménye

Varimax forgatás

Főkomponens elemzéstulajdonságai • Amennyiben a korrelációs mátrixot elemezzük nem érzékeny a skálatranszformációra • A főkomponens elemzés érzékeny a változók közötti lineáris transzformációra

Főkomponens elemzéstulajdonságai

Főkomponens elemzéstulajdonságai • Nem ‘csoportosítható’: ha van 3 változónk, és mind a 3 változóra készítünk főkomponens elemzést, vagy először 2-re készítünk főkomponens elemzést, és az elmentett főkomponensekkel és a 3. változóval készítünk újabb főkomponens elemzést különböző végeredményt kapunk

Főkomponens elemzéstulajdonságai

Előfeltételek • Egy adatbázison akkor érdemes főkomponens elemzést alkalmazni, ha megfelelő nagyságú összefüggőség áll fenn az adatok között. • Korrelációs mátrix determinánsa. Ha a magyarázó változók korrelálatlanok, akkor a determináns 1. Minél nagyobb az összefüggés az adatok között, annál közelebb van 1-hez

Előfeltételek • KMO (Kaiser-Meyer-Olkin) mutató: a változók közötti korrelációs együttható és parciális korrelációs együtthatókat vizsgálja. Ha a mutató értéke 0,5 felett van jelentős az összefüggés az adatokban. • Bartlett teszt: nullhipotézis: az elemzésbe bevont változók korrelálatlanok. A teszt előfeltétele a többdimenziós normális eloszlás.

További segítségek • Korrelációs mátrix inverze: parciális korrelációk kiszámításához nyújt segítséget • Anti-Image korrelációs mátrix: főátlójában a változónként számolt KMO értékek szerepelnek, főátlóján kívül a parciális korrelációk • Reprodukált korrelációs mátrix: ennek fődiagonálisában vannak a kommunalitások

Elemzés • Milyen összefüggések vannak a különböző tancsoportok számai között

Elemzés

Többváltozós adatelemzés

Többváltozós adatelemzés

Presentation Transcript

Csan di rp d ltal nos Iskola, K z piskola s Pedag giai Int zet 2009. j nius 3. A K ZOKTAT SI T PUS SPORTISKOLAI

A modulos t telk sz t s, r sbeli, sz beli vizsgatev kenys gek saj toss gai.

RT KPAP ROK RT KEL SE

Ad - s j rul kt rv ny m dos t sok 2010-2011

Art. v ltoz sok 2009. vk zi s 2010. 2009. november december, 2010. janu r

A KERING S LETTANA

Az ipar f ldrajzi vizsg lata

A bankok p nz gyi k zvet t sben bet lt tt szerep nek v ltoz sa