1 / 44

Többváltozós adatelemzés

Többváltozós adatelemzés. 10. előadás. Főkomponens elemzés. Adatokban rejlő belső összefüggések feltárására használják Információsűrítésre alkalmas módszer Különbséget kell tenni a főkomponens és az ún. főfaktor modellek között, mi csak a főkomponens modellekkel foglalkozun.

fergal
Download Presentation

Többváltozós adatelemzés

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Többváltozós adatelemzés 10. előadás

  2. Főkomponens elemzés • Adatokban rejlő belső összefüggések feltárására használják • Információsűrítésre alkalmas módszer • Különbséget kell tenni a főkomponens és az ún. főfaktor modellek között, mi csak a főkomponens modellekkel foglalkozun

  3. Főkomponens modell • Adva van x1, x2, …, xn változó. Szeretnék lineáris kombináció segítségével olyan új mesterséges (látens) változót készíteni, aminek a varianciája maximális. y1=a1*x1+a2*x2+…+an*xn

  4. Főkomponens elemzés • A maximális variancia feladatot valamilyen korlát mellett kell elvégezni. A szokásos korlát az, hogy a lineáris transzformáció vektora egységnyi hosszúságú legyen: a12+a22+…+an2=1 • Ok: Független változók esetén az összeg variancája a négyzetes súlyokkal péződij var(a1*x1+a2*x2)=a12*var(x1)+a22*var(x2)

  5. Főkomponens elemzés • A továbbiakban feltételezzük, hogy x1, x2, …, xn változók ‘centrálva’ vannak (0 a várható értékük). Ha ez nem így lenne, akkor levonjuk belőlük az átlagot var(y1)=y1Ty1= =a12var(x1)+a22var(x2)+…+an2var(xn)+ +2a1a2kovar(x1,x2)+2a1a3kovar(x1,x3)+ +….+2an-1ankovar(xn-1,xn)

  6. Főkomponens elemzés • Var(y1)=y1Ty1=aTCa, ahol ‘C’ a variancia-kovariancia mátrix. • max(aTCa), feltéve, hogy aTa=1 • L=aTCa-λ(aTa-1) -> max • Deriváltat tegyük egyenlővé 0-val: • Ca- λa=0 -> (C- λE)a=0 • Sajátérték feladat

  7. Főkomponens elemzés • A variancia-kovariancia mátrix sajátértékei keressük. • A sajátértékekhez tartozó sajátvektorok adják a keresett lineáris kombinációt • A variancia-koariancia mátrix szimmetrikus és pozitív definit, ezért a sajátértékek pozitívok lesznek

  8. Főkomponens elemzés • Amennyiben a kovariancia mátrixot elemezzük, az eredmény függ a változók skálájától, ha ez nem kívánatos, akkor sztenderdizálni kell a változókat, ami azt jelenti a gyakorlatban, hogy nem a kovariancia mátrixot, hanem a korrelációs mátrixot elemezzük.

  9. Főkomponens elemzés • Sajátértékek összege megegyezik a diagonálisban lévő elemek összegével. Korrelációs mátrix esetén a diagonálisban végig 1-esek szerepelnek, ezért a diagonálisban szereplő elemek összege (a mátrix nyoma) megegyezik a változók számával. Kovariancia mátrix esetén nincs ilyen összefüggés

  10. Főkomponens elemzésKiadások

  11. Főkomponens elemzés

  12. Főkomponens elemzés • Az SPSS (és általában a statisztikai csomagok) nem a sajátvektorok értékét adják meg, hanem az ún. ‘komponens’ mátrixot közli, ami kapcsolatban áll a sajátvektorokkal, de nem egyezik meg vele. • Az ún. ‘component loading’ megadja a főkomponensek és az eredeti változók közötti korrelációt

  13. Főkomponens elemzés • Az x változók és a főkomponensek közötti korreláció: • kovar(X,Y)=XTY= XT(XA)=(XTX)A=ΛA, mivel A sajátvektorok mátrixa. • Amennyiben X mátrix sztenderdizált változókat tartalmaz, a ‘C’ kovariancia mátrix helyett R korrelációs mátrix szerepel • korrel(xi,yj)=kovar(xi,yj)/sqrt[var(xi)var(yj)]= =kovar(xi,yj)/sqrt[var(xi)*λj]

  14. Főkomponens elemzés • Sztenderdizált x változók esetén: • korrel(xi,yj)=kovar(xi,yj)/sqrt[var(xi)*λj]= = λj*aj /sqrt[λj]=sqrt[λj]*aj • Tehát a komponens mátrixban szereplő értékek, nem egységnyi hosszúságú vektorok, hanem hosszuk a sajátérték gyöke

  15. Főkomponens elemzés

  16. Főkomponens elemzés • Főkomponens elemzés során tehát egy másik bázisban (a sajátvektorok alkotta bázisban) írjuk fel az adatokat. • A sajátvektorokat (az eredeti változók lineáris kombinációit) látens változóknak hívjuk • A sajátvektorok (főkomponensek) merőleges egymásra

  17. Főkomponensek értelmezése • A főkomponens elemzés akkor segít, ha a főkomponenseknek jelentést tudunk adni • A főkomponensek értelmezésénél a komponens mátrix alapján azt vizsgáljuk, hogy melyik főkomponens melyik eredeti változóval korrelál

  18. Főkomponensek értelmezése • főkomponens: nagyság • főkomponens: fejlesztés • (részben humán is) • Működtetési költségek • Pedagógus állomány

  19. Főkomponensek értelmezése • A főkomponensek értelmezése nem mindig egyértelmű és nem mindig egyszerű feladat. • Akkor jó a főkomponensek értelmezhetősége ha az eredeti változók csak egy főkomponenssel korrelálnak erősen • Az előbbi példában nem ez a helyzet

  20. Főkomponensek száma • Általában nem szoktuk az összes főkomponenset megtartani, csak a ‘jelentőseket’. • A főkomponensek jelentőségét a varianciájuk (sajátértékük) mutatja. • Alapbeállításként az 1-nél nagyobb főkomponenseket tartjuk meg (1 eredeti változónyi információnál többet tartalmaznak)

  21. Főkomponensek száma

  22. Kommunalitás • Amennyiben nem tartjuk meg az összes főkomponenset,nem tudjuk az eredeti változók varanciáját teljes mértékben reprodukálni. • XTX=C=AΛA • Var(xi)=(ai*sqrt[λj])T*(ai*sqrt[λj]) • Ha csak r főkomponenst tartunk meg,a akkor a reprodukált variancia (a kommunalitás) a komponens mátrix első r elemének négyzetösszege

  23. Kommunalitás 0,846^2=0,716

  24. Kommunalitás 0,846^2+(-0,303)^2=0,808

  25. Kommunalitás • A kommunalitás értelmezhető R2 mutatóként is. Valamelyik x változóra, mint eredményváltozóra regressziós modellt építünk a r db. Legnagyobb varianciájú főkomponens segítségével. A modell R2 mutatója a kommunalitás.

  26. Főkomponensek forgatása • Amennyiben nem tartjuk meg az összes főkomponenset, a jobb értelmezhetőség kedvéért a megoldást elrogathatjuk • Sokféle forgatás létezik, a legnépszerűbb a varimax forgatás, amely esetén a főkomponensek merőlegesek maradnak

  27. Varimax forgatás • A komponens mátrix elemeit úgy forgatjuk, hogy az oszlopokban a variancia maximális legyen, feltéve, hogy a főkomponensek továbbra is merőlegesek. • A forgatás numerikusan egy iteratív folyamat végeredménye

  28. Varimax forgatás

  29. Főkomponens elemzéstulajdonságai • Amennyiben a korrelációs mátrixot elemezzük nem érzékeny a skálatranszformációra • A főkomponens elemzés érzékeny a változók közötti lineáris transzformációra

  30. Főkomponens elemzéstulajdonságai

  31. Főkomponens elemzéstulajdonságai • Nem ‘csoportosítható’: ha van 3 változónk, és mind a 3 változóra készítünk főkomponens elemzést, vagy először 2-re készítünk főkomponens elemzést, és az elmentett főkomponensekkel és a 3. változóval készítünk újabb főkomponens elemzést különböző végeredményt kapunk

  32. Főkomponens elemzéstulajdonságai

  33. Előfeltételek • Egy adatbázison akkor érdemes főkomponens elemzést alkalmazni, ha megfelelő nagyságú összefüggőség áll fenn az adatok között. • Korrelációs mátrix determinánsa. Ha a magyarázó változók korrelálatlanok, akkor a determináns 1. Minél nagyobb az összefüggés az adatok között, annál közelebb van 1-hez

  34. Előfeltételek • KMO (Kaiser-Meyer-Olkin) mutató: a változók közötti korrelációs együttható és parciális korrelációs együtthatókat vizsgálja. Ha a mutató értéke 0,5 felett van jelentős az összefüggés az adatokban. • Bartlett teszt: nullhipotézis: az elemzésbe bevont változók korrelálatlanok. A teszt előfeltétele a többdimenziós normális eloszlás.

  35. További segítségek • Korrelációs mátrix inverze: parciális korrelációk kiszámításához nyújt segítséget • Anti-Image korrelációs mátrix: főátlójában a változónként számolt KMO értékek szerepelnek, főátlóján kívül a parciális korrelációk • Reprodukált korrelációs mátrix: ennek fődiagonálisában vannak a kommunalitások

  36. Elemzés • Milyen összefüggések vannak a különböző tancsoportok számai között

  37. Elemzés

  38. Elemzés

  39. Elemzés

  40. Elemzés

  41. Elemzés

  42. Elemzés

  43. Elemzés

  44. Elemzés

More Related