460 likes | 839 Views
ANALÝZA HLAVNÝCH KOMPONENTOV. P rincipal C omponent A nalysis. X 1. X 2. X 3. X 4. X 5. X 6. X 7. X 8. X 9. X 10. X 11. X p. 1. 2. 3. 4. 5. n. Viacrozmerné metódy -údaje. n > p. Metódy analýzy skrytých vzťahov. Často v praxi vzniká problém :
E N D
ANALÝZA HLAVNÝCH KOMPONENTOV PrincipalComponentAnalysis
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 Xp 1 2 3 4 5 n Viacrozmerné metódy -údaje n > p
Často v praxi vzniká problém: • začiatočný počet premenných, popisujúcich objekty (pozorovania) je vysoký a naviac premenné sú vzájomne korelované (problém multikolinearity) . • zjednodušením môže byť vytvorenie menšieho počtu znakov (premenných) bez podstatnej straty informácie • K riešeniu tohto problému boli vytvorené dve metódy: • Analýza hlavných komponentov – PrincipalComponentsAnalysis – PCA • Faktorová analýza – FactorAnalysis - FA • PCA a FA patria do metód analýzy skrytých vzťahov • a metód zníženia dimenzie
Analýza hlavných komponentov Okruhy, ktorým budeme venovať pozornosť: • Matematické a geometrické vyjadrenie hlavných komponentov • Hlavné komponenty • Interpretácia hlavných komponentov • Ilustratívne príklady v SAS EG
Analýza hlavných komponentov PCA = metóda analýzy skrytých vzťahov: • premenné nemožno logicky rozdeliť do dvoch skupín na závislé a nezávislé • cieľom je pochopiť alebo identifikovať prečo a ako sú premenné navzájom prepojené, t.j. ako sa navzájom ovplyvňujú • ak sú premenné navzájom prepojené – korelované, možno rovnaký objem informácií vystihnúťmenším počtom premenných – zníženie dimenzie • Metódy vychádzajú z analýzy kovariačnejresp. korelačnej matice pôvodných premenných a pokúšajú sa nájsť skryté – nemerateľné- latentné premenné = premenné sa nedajú merať, ale majú schopnosť vecnej interpretácie.
Analýza hlavných komponentov PCA – využitie v praxi Finančný analytik - zistenie finančného zdravia firmy. Na základe veľkého počtu ukazovateľov znakov (napr. 120) je nákladné, náročné a ťažko interpretovateľné hodnotenie finančného zdravia podniku. Úloha analytika: vytvorenie menšieho počtu ukazovateľov (3, viac), resp. indexov, ktoré sú lineárnymi kombináciami pôvodných 120 ukazovateľov Marketingový manažér – vytvorenie regresného modelu pre predpoveď predaja – problém multikolinearity zvolených premenných (skreslenie smerod. odchýlok a nestabilita modelu). Snaha o vytvorenie nových premenných, ktoré sú lineárnymi kombináciami pôvodných premenných, ale už nie sú korelované . Pre regresný model budú použité nové premenné Kontrola kvality– snaha vytvoriť z dostupných ukazovateľov nové zložené ukazovatele (indexy ) o procese výroby – využitie pri kontrole kvality
Analýza hlavných komponentov • Charakteristika • predmetom analýzy je skupina kvantitatívnych premenných • je metóda, ktorá umožňuje vytvárať nové premenné, ktoré sú lineárnou kombináciou pôvodných premenných • nové premenné sa nazývajú hlavné komponenty (HK) • Cieľ • Identifikácia odľahlých pozorovaní, resp. vplyvných pozorovaní (outliers) • Zníženie dimenzie (premenných) viacrozmernej analýzy • Odstránenie závislosti medzi premennými, následné použitie HK v zhlukovej analýze, resp. pri tvorbe regresných modelov na odstránenie multikolinearity
Matematické a geometrické vyjadrenie HK • Každá štatistická jednotka je charakterizovaná viacerými ukazovateľmi (premenné, znaky), predstavuje body v p-rozmernom priestore (p=počet sledovaných premenných) • Každá z pôvodných premenných má v súbore nejakú variabilitu, meranú rozptylom. Rozptyl je nositeľom informácie. • Pozn. Ak premenná nemá pre dané pozorovania žiadnu variabilitu, všetky pozorovania majú rovnakú hodnotu. Nemôžeme na základe tejto premennej pozorovania odlíšiť a teda nám nedáva žiadnu informáciu ich charaktere. • Celkový objem informácie získame súčtom rozptylov jednotlivých premenných
Matematické a geometrické vyjadrenie HK • PCA je ordinálna metóda, ktorá umožňuje redukovať počet dimenzií v euklidovskom priestore (definovanom korelovanými premennými ) tak, aby nedošlo k strate informácií • Pôvodných p vzájomne korelovaných (pozorovaných) premenných je nahradených novými q vzájomne nekorelovanými, nemerateľnými „syntetickými“ premennými tak, že prvá nová súradnicová os (prvý HK) je vedená v smere maximálnej variability medzi objektmi. Druhá os je (druhý HK) je kolmá na prvú os a je vedená v smere druhej najväčšej variability medzi objektmi, atď . • Relatívna pozícia objektov v pôvodnom priestore a v novom priestore (danom HK) je rovnaká,tzn. pôvodný súradnicový systém sa natáča do smeru max. variability medzi objektmi, pričom euklidovské vzdialenosti medzi objektmi sa zachovávajú.
Matematické a geometrické vyjadrenie HK V grafickej prezentácii: Uvažujeme, že každý objekt je meraný len dvomi ukazovateľmi (x1, x2). Pôvodný súradnicový systém posúvame do nového systému v smere najväčšej variability. Súradnice bodu A vzhľadom na nové osi sú lineárnou kombináciou súradníc vzhľadom na pôvodné osi. X2 A X1
Hlavné komponenty Cieľ PCA:nájdenie skutočného (nového) rozmeru, v ktorom sa údaje nachádzajú. Pre splnenie tejto úlohy je výhodné určiť nové súradnicové osi tak, aby platili podmienky V1 až V5 • V1Vzájomná poloha bodov v p-rozmernom priestore (pozorovaní) sa nemení . Nové osi predstavujú nové umelé premenné - hlavné komponenty, HK. Nové hodnoty premenných na štatistických jednotkách (pozorovaniach) nazývame komponentové body. • V2 Každá z nových premenných je lineárnou kombináciou pôvodných p-premenných • V3 Nové premenné – HK, ktorých počet je max. p, sú navzájom nekorelované. • V4 Prvý HK vysvetľuje najväčšiu časť variability údajov, preto je najdôležitejší. Myslí sa tým najväčšiu časť zo súčtu rozptylov všetkých p pôvodných premenných. • V5 Každý ďalší HK vysvetľuje čo najväčšiu časť zo zostávajúcej variability údajov tak, že na posledný komponent ostane už len nepatrný zvyšok.
Hlavné komponenty Predpokladajme, že súbor pôvodných p – premenných X1, X2, ..., Xp transformujeme na nové premenné Y1, Y2, ...,Yp – hlavné komponenty tak, že sú lineárnou kombináciou pôvodných premenných. premenné hlavné komponenty X1 X2 X3 X4 X5 X6 Xp Y1 Y2 Y3 Yq 1 2 PCA 3 4 p q 5 n Y1 = a11 x1 + a12 x2 + a13 x3 + …. + a1p xp Y2 = a21 x1 + a22 x2 + a23 x3 + …. + a2p xp ...
Y1 = a11 x1 + a12 x2 + a13 x3 + …. + a1p xp Y2 = a21 x1 + a22 x2 + a23 x3 + …. + a2p xp Y3 = a31 x1 + a32 x2 + a33 x3 + …. + a3p xp …. Yp = ap1 x1 + ap2 x2 + ap3 x3 + …. + app xp Hlavné komponenty • Hlavné komponenty sú lineárnou kombináciou pôvodných premenných Hlavnékomponenty koeficientyaij,saturácie, váhy • Hlavné komponenty Yi • maximálne možno vytvoriť rovnaký počet HK ako pôvodných premenných, • každý HK je lineárnou kombináciou pôvodných premenných, • nové premenné sú navzájom nekorelované (nezávislé)
Hlavné komponenty Koeficienty aij , váhy, saturácie sú odhadované tak, že: • sú splnené podmienky V1 až V5. • celková variabilita sa nezmení , t.j. rozptyl nových a pôvodných premenných sa rovná 1, t.j. aij2= 1 ai12 + ai22 + ..+ aip2 = 1, pre každé i=1, 2,...p • nové premenné boli navzájom nezávislé, čo zabezpečuje vzťah ai1aj1 + ai2aj2 + ….+ aipajp= 0 pre i j a i, j =1,2,...,p
Hlavné komponenty Vlastnosti hlavných komponentov: • E(Yi)= 0, i=1, 2, ..., p • D(Yi) = i , i=1, 2, ..., p i vlastné čísla (eigenvalue) kovariačnej matice, pre ktoré platí : 1 2 3 ... p • cov (Yi,Yj) = 0, i≠j • D(Y1) D(Y2) D(Y3) …. D(Yp) 0 • cov(Xi,Xj) = aijj a ich koeficient korelácie
PCA - úprava údajov Pred odhadom je potrebné rozhodnúť z akých údajov sa bude vychádzať. • ak majú rovnakú mernú jednotku – vychádzame z kovariačnej matice. Je to vhodnejšie, pretože k-ty HK je taká lineárna kombinácia premenných, ktorý vysvetľuje k-tu najväčšiu časť celkového rozptylu. Maximalizácia tohto rozptylu pri normovaných premenných má umelý charakter. • ak majú rôzne merné jednotky – vychádzame z korelačnej matice • je potrebné brať do úvahy normované (štandardizované) hodnoty, aby sme ich previedli na spoločný základ.
Analýza hlavných komponentov Rozlišujeme nasledovné typy PCA – podľa toho, z čoho vychádzame pri výpočte. • Centrovaná PCA – vychádzame z kovariančnej matice. Začiatočný bod novej súradnicovej sústavy je posunutý z pôvodného bodu do centroidu objektov (centroid = hypotetický objekt, kt. predstavuje priemerný objekt. Vzdialenosti medzi objektami sú rovnaké v novom aj v pôvodnom systéme. • Štandardizovaná PCA – vychádzame z korelačnej matice. Začiatočný bod novej súradnicovej sústavy je posunutý z pôvodného bodu do centroiduobjektov a súčasne sú pôvodné hodnoty normované (ich rozptyl = 1) • Necentrovaná PCA – vychádzame z pôvodných premenných. Začiatočný bod nového systému je v tom istom bode ako bol v pôvodnom systéme.
Určenie počtu HK Len niekoľko prvých HK stačí vysvetliť celkový rozptyl pôvodných údajov. Existuje niekoľko pravidiel na určenie optimálneho počtu HK: • Podľa vlastnej úvahy o potrebe zachovania informácií (vlastné čísla, ktoré vysvetľujú napr. 90% variability) • Kaiserovo pravidlo: použiť tie HK, ktorých vlastné číslo je väčšie ako priemer všetkých vlastných čísel. Pri normovaných údajoch sa priemer=1, t.j. berieme tie HK, ktorých eigenvalue> 1. • Použiť HK, ktoré spolu vysvetľujú aspoň 70% celkového rozptylu • Vychádzať z grafického zobrazenia, z tzv. Scree Plot grafu – nájsť zlom v tomto grafe a do úvahy brať HK po tento zlom. • Andersonove pravidlo (test sféričnosti): test hypotézy: len prvých q vlastných čísel je určených jednoznačne, ostatné sú rovnaké. • H0 : q+1= q+2= …. = p = 0 • H1 : neplatí H0 • začneme q=0 => ak platí H1 => HK1 je štat. významný. Pokračujeme, kým sa nepotvrdí H0. Testovacie kritérium má chí- kvadrát rozdelenie (SAS tento test neposkytuje).
Interpretácia výsledov • Komponentové skóre (componentscores)- predstavuje súradnice objektu v novom priestore definovanom HK. Jeho hodnotu pre j-túštat. jednotku (j=1,2,...,n) v i-tom komponente vypočítame podľa: yij= aij(xj–xpr) (aij = vij) • Vlastné vektory – kosínusy (eigenvectors) - vyjadrujú smer vektorov, ktoré charakterizujú vplyv pôvodných znakov na komponenty. Čísla vlastných vektorov = komponentové váhy (saturácie) jednotlivých premenných pri tvorbe príslušného komponentu. Čím je hodnota aijvyššia, tým viac informácie o pôvodnej premennej Xj vysvetľuje komponent Yi . Dôležité je zistiť všetky premenné s vysokými váhami pre daný komponent. Komponent sa potom snažíme vhodne interpretovať. Všímame si vysoké váhy, t.j. I(aij)I>0,5. • Vlastné čísla h(eigenvalue) - vyjadrujú mieru variability, ktorá je zachytená príslušným komponentom. Z hľadiska interpretácie nie sú dôležité ich konkrétne hodnoty, ale vyjadrenie ich podielu na celkovom rozptyle.
Interpretácia výsledov • Koeficienty korelácie premenných s komponentami- koeficient korelácie vyjadruje nakoľko daná pôvodná Xi ovplyvňuje nový HK Yi čím je koeficient vyšší, o to viac vplýva pôvodná premenná na nový HK • Ordinačné grafy objektov (pozorovaní) - zobrazujú štatistické jednotky – objekty v súradnicovom systéme pôvodných premenných • Ordinačné grafy znakov (premenných) - zobrazujú pôvodné premenné v novom súradnicovom systéme HK. Vplyv hodnotíme na základe porovnania vektorov jednotlivých znakov, t.j. čím je vektor dlhší, tým je pôsobenie znaku silnejšie a čím je uhol medzi vektorom a príslušnou komponentovou osou menší, tým je vplyv znaku silnejší na daný komponent. • Biploty – zobrazujú pozorovania aj znaky ma jednom grafe, ktorého súradnicové osi tvoria zvolené komponenty. Slúžia tak na lepšiu interpretáciu podielu pôvodných znakov na komponenty. • Detekcia odľahlých pozorovaní - na základe zobrazenia pozorovaní na priemete hlavného komponentu.
Ilustratívny príklad v SAS EG K dispozícii údaje o 93 (n=93) modeloch áut rôznych značiek: Skúmané parametre jednotlivých automobilov: • EngineSizeObjem motora • Horsepower Výkon motora • Fueltank Objem nádrže • Passengers Počet miest v aute • Lengh Dĺžka auta • Wheelbase Rázvor náprav • Width Šírka auta • U TurnSpace Vzdialenosť potrebná pri otáčaní auta • Rearseat Priestor na sedenie na zadnom sedadle • Luggage Objem batoživnového priestoru • Weight Hmotnosť auta
Ilustratívny príklad v SAS EG Úloha: posúďte pomocou PCA, či je možné vyjadriť rovnaký objem informácií menším počtom premenných. Krok 1: Overiť, či je možné redukovať počet premenných Existencia multikolinearity – pomocou korelačnej matice
Ilustratívny príklad v SAS EG Krok 2: Redukovať počet premenných pomocou PCA SAS: Task/Multivariate/PrincipalComponents ...
Ilustratívny príklad v SAS EG SAS: Zadať analyzované (pôvodné) premenné – záložka Data
Ilustratívny príklad v SAS EG SAS: záložka Analysis
Ilustratívny príklad v SAS EG SAS: záložka Plots
Ilustratívny príklad v SAS EG SAS: záložka Results
Ilustratívny príklad v SAS EG SAS: záložka Plots
Ilustratívny príklad v SAS EG SAS: Výstupy
Ilustratívny príklad v SAS EG SAS: Výstupy - Eigenvalues – Vlastné čísla
Ilustratívny príklad v SAS EG SAS: Výstupy - Eigenvectors – Vlastné vektory - všetky
Ilustratívny príklad v SAS EG SAS: Výstupy - Eigenvectors – Vlastné vektory – len významné PRN1: váhy sú približne rovnaké PRN2: významné: passengers, rearseat - pozitívne korelované luggage horsepower – negatívne korelovaný
Ilustratívny príklad v SAS EG SAS: grafický výstup1: SCREE PLOT
Ilustratívny príklad v SAS EG SAS: grafický výstup2: Matica komponentového skóre
Ilustratívny príklad v SAS EG SAS: grafický výstup3: Vlastné vektory
Ilustratívny príklad v SAS EG SAS: grafický výstup4: Komponentové skóre
Ilustratívny príklad v SAS EG SAS: grafický výstup5: Vlastné vektory
Ilustratívny príklad v SAS EG SAS: Výstup1
Ilustratívny príklad v SAS EG SAS: Výstup2