300 likes | 485 Views
Analýza hlavných komponentov. (PCA – Principal Component Analysis ). X 1. X 2. X 3. X 4. X 5. X 6. X 7. X 8. X 9. X 10. X 11. X p. 1. 2. 3. 4. 5. n. Viacrozmerné metódy. n > p. Metódy analýzy skrytých vzťahov. Často v praxi vzniká problém :
E N D
Analýza hlavných komponentov (PCA – Principal Component Analysis)
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 Xp 1 2 3 4 5 n Viacrozmerné metódy n > p
Často v praxi vzniká problém: • začiatočný počet premenných, popisujúcich objekty (pozorovania) je vysoký a naviac premenné sú vzájomne korelované (problém multikolinearity) . • zjednodušením môže byť vytvorenie menšieho počtu znakov (premenných) bez podstatnej straty informácie • K riešeniu tohto problému boli vytvorené dve metódy: • Analýza hlavných komponentov – Principal Components Analysis – PCS • Faktorová analýza – Factor Analysis - FA • PCA a FA patria do metód analýzy skrytých vzťahov • a metód zníženia dimenzie
Metódy analýzy skrytých vzťahov • premenné nemožno logicky rozdeliť do dvoch skupín na závislé a nezávislé • cieľom je pochopiť alebo identifikovať prečo a ako sú premenné navzájom korelované t.j. ako sa navzájom ovplyvňujú • ak sú premenné navzájom prepojené – korelované, možno rovnaký objem informácií vystihnúťmenším počtom premenných – zníženie dimenzie • Obe metódy vychádzajú z analýzy kovariačnej resp, korelačnej matice pôvodných premenných a pokúšajú sa nájsť skryté – nemerateľné- latentné prememnné. Tieto premenné sa nedajú merať, ale majú schopnosť vecnej interpretácie.
Analýza hlavných komponentov, PCAAplikácie PCA Finančný analytik - zistenie finančného zdravia firmy. Na základe veľkého počtu ukazovateľov znakov(napr. 120), ktoré sú použiteľné a medzi ktorými je korelácia je nákladné, náročné a ťažko interpretovateľné hodnotenie finančného zdravia podniku). Úloha analytika: vytvorenie menšieho počtu ukazovateľov (3, viac), resp. indexov, ktoré sú lineárnymi kombináciami pôvodných 120 ukazovateľov (napr. DIJA) Marketingový manažér – vytvorenie regresného modelu pre predpoveď predaja – problém multikolinearity zvolených premenných (skreslenie štd. odchýlok). ...snaha o vytvorenie nových premenných , ktoré sú lineárnymi kombináciami pôvodných premenných , ale už nebudú korelované . Pre regresný model bud použité nové premenné Kontrola kvality – snaha vytvoriť z dostupných ukazovateľov nové zložené ukazovatele (indexy ) o procese výroby – využitie pri kontrole kvality
Analýza hlavných komponentov • Charakteristika • predmetom analýzy je skupina kvantitatívnych premenných • je metóda, ktorá umožňuje vytvárať nové premenné, ktoré sú lineárnou kombináciou pôvodných premenných • nové premenné sa nazývajú hlavné komponenty (HK) • Cieľ • Identifikácia odľahlých pozorovaní, resp. vplyvných pozorovaní (outliers) • Zníženie dimenzie (premenných) viacrozmernej analýzy • Odstránenie závislosti medzi premennými, následné použitie HK v zhlukovej analýze, pri tvorbe regresných modelov na odstránenie multikolinearity
Matematické a geometrické vyjadrenie hlavných komponentov premenné X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 XP 1 2 3 4 5 n
Analýza hlavných komponentov • Každá štatistická jednotka je charakterizovaná viacerými ukazovateľmi (premenné, znaky), predstavuje body v p-rozmernom priestore • Každá z pôvodných premenných má v súbore nejakú variabilitu, meranú rozptylom. Rozptyl je nositeľom informácie. • Pozn. Ak premenná nemá pre dané pozorovania žiadnu variabilitu • všetky pozorovania majú rovnakú hodnotu, • nemôže na základe tejto premennej pozorovania odlíšiť a teda nám nedáva žiadnu informáciu o ich charaktere • Celkový objem informácie získame súčtom rozptylov jednotlivých premenných
PCA je ordinálna metóda, ktorá umožňuje redukovať počet dimenzií v euklidovskom priestore (definovanom korelovanými premennými ) tak, aby nedošlo k strate informácií Pôvodných p vzájomne korelovaných (pozorovaných) premenných je nahradených novými q vzájomne nekorelovanými (ortogonálnymi) nemerateľnými „syntetickými“ premennými tak, že prvá nová súradnicová os (prvý HK) je vedená v smere maximálnej variability medzi objektmi (štatist. jednotkami). Druhá os (druhý HK) je kolmá na prvú os a je vedená v smere druhej najväčšej variability medzi objektmi, atď . Relatívna pozícia objektov v pôvodnom priestore a v novom priestore (danom HK) je rovnaká. T.zn. pôvodný súradnicový systém sa natáča do smeru max. variability medzi objektmi, pričom euklidovské vzdialenosti medzi objektmi sa zachovávajú. Analýza hlavných komponentov
PCA - hlavné komponenty v základnom súbore Cieľ PCA: nájdenie skutočného (nového) rozmeru, v ktorom sa údaje nachádzajú. Pre splnenie tejto úlohy je výhodné určiť nové súradnicové osi tak, aby platili podmienky V1 až V5 • V1 Vzájomná poloha bodov v p-rozmernom priestore (pozorovaní) sa nemení . Nové osi predstavujú nové umelé premenné - hlavné komponenty, HK. Nové hodnoty premenných na štatistických jednotkách (pozorovaniach) nazývame komponentové body (komponentové skóre). • V2 Každá z nových premenných je lineárnou kombináciou pôvodných p-premenných • V3 Nové premenné – HK, ktorých počet je max. p sú navzájom (po dvojociach) nekorelované. • V4. Prvý HK vysvetľuje najväčšiu časť variability údajov, preto je najdôležitejší. Myslí sa tým naväčšiu časť zo súčtu rozptylov všetkých p pôvodných premenných. • V5 Každý ďalší HK vysvetľuje čo najväčšiu časť zo zostávajúcej variability údajov tak, že na posledný komponent ostane len nepatrný zvyšok
PCApredpokladajme, že súbor pôvodných p – premenných X1, X2, ..., Xp transformujeme na nové premenné Y1, Y2, ...,Yp – hlavné komponenty premenné hlavné komponenty X1 X2 X3 X4 X5 X6 Xp Y1 Y2 Y3 Yq 1 2 PCA 3 4 p q 5 n Y1 = a11 x1 + a12 x2 + a13 x3 + …. + a1p xp Y2 = a21 x1 + a22 x2 + a23 x3 + …. + a2p xp ...
Y1 = a11 x1 + a12 x2 + a13 x3 + …. + a1p xp Y2 = a21 x1 + a22 x2 + a23 x3 + …. + a2p xp Y3 = a31 x1 + a32 x2 + a33 x3 + …. + a3p xp …. Yp = ap1 x1 + ap2 x2 + ap3 x3 + …. + app xp Analýza hlavných komponentov • Hlavné komponenty sú lineárnou kombináciou pôvodných premenných hlavné komponenty aij koeficienty saturácie, váhy • Hlavné komponenty Yi • maximálne možno vytvoriť rovnaký počet HK ako pôvodných premenných, • každý HK je lineárnou kombináciou pôvodných premenných, • nové premenné sú navzájom nekorelované (nezávislé)
Analýza hlavných komponentov HK sú odhadnuté tak, že • 1. HK vystihuje maximálny objem informácií pôvodných premenných (max. podiel rozptylu) • 2. HK vystihuje maximálny objem z informácií pôvodných premenných, ktoré neboli vystihnuté 1. HK • 3. HK vystihuje maximálny objem z informácií pôvodných premenných, ktoré neboli vystihnuté 1. a 2. HK • atď.
Analýza hlavných komponentov Koeficienty, váhy HK, saturácieaij sú odhadované tak, že • sú splnené podmienky V1 až V5. • celková variabilita sa nezmení , t.j. rozptyl nových a pôvodných premenných sa rovná 1, t.j. • aij2= 1 ai12 + ai22 + ..+ aip2 = 1, pre každé i=1, 2,...p (zabezpečuje, aby sa nezmenila variabilita HK oproti pôvodným premenným Xi) • ai1aj1 + ai2aj2 + ….+ aipajp = 0 pre i ji, j =1,2,...,p • (zabezpečuje nezávislosť nových premenných, čiže HK)
PCA – úprava údajov Pred odhadom je potrebné rozhodnúť, z akých údajov sa bude vychádzať, upraviť pôvodné pňremenné: ak majú rovnakú mernú jednotku • je potrebné brať do úvahy centrované hodnoty, aby sme odstránili posun v strednej hodnote: Kovariačná matica ak majú rôzne merné jednotky • je potrebné brať do úvahy normované(štandardizované) hodnoty, aby sme ich previedli na spoločný základ: Väčšinou sa pracuje s korelačnou maticou
Podľa vstupných údajov: • Centrovaná PCA – vychádzame z kovariančnej matice, centrovanie znakov • Štandardizovaná PCA – vychádzame z korelačnej matice, Centrovanie a preškálovanie premenných, normovanie premenných • Necentrovaná PCA – vychádzame z pôvodných premenných.
Analýza hlavných komponentov • vlastnosti hlavných komponentov • E(Yi)= 0 • D(Yi) = i • D(Y1) D(Y2) D(Y3) …. D(Yp) = 1 2 3 ... p • cov (Yi,Yj) = 0 , pre i ≠ j • odhad hlavných komponentov • | S - I | = 0, kde S je výberová kovariančná matica výsledkom výpočtu sú vlastné čísla matice 1i,i=1, 2, ...p • vlastné čísla matice sú odhadom variability HK • D(Yh)=s2(Yh) = h • | S - hI | Ah = 0 výsledkom sú saturácie pre h-tý HK, váhy aij pôvodných premenných Xj pri tvorbe i-tého komponentu.
Analýza hlavných komponentov • podiel variability vysvetlený q-tým HK • celkový rozptyl (variabilita) s2(Yh) = h • podiel variability vysvetlený h-tým komponentom h /h
PCA – určenie počtu HK • aký počet komponentov uvažovať • podľa vlastnej úvahy • o potrebe zachovania informácií (90%) • Kaiserovo kritérium • akh > priemer(),potom h-tý HK je štatisticky významný, • kdepriemer(pr.)= (1/p)h
Analýza hlavných komponentov • aký počet komponentov uvažovať • Testom sféričnosti (Anderson).., že len prvých q HK je významných • H0 : q+1= q+2= …. = p = 0 • H1 : neplatí H0 • začneme q=0 => ak platí H1 => HK1 je štat. významný • pokračujeme, kým sa nepotvrdí H0 Testovacie krotérium V má CHÍ- kvadrát rozdelenie
Interpretácia výsledkov • Komponentové skóre (component scores)- predstavuje súradnice objektu v novom priestore definovanom HK-ami. Jeho hodnotu pre j-tú štatist. jednotku (j=1,2,...,n) v i-tom komponente vypočítame podľa: yij= aij(xJ –xpr.) • Vlastné vektory – kosínusy (eigen vectors) - vyjadrujú smer vektorov, ktoré charakterizujú vplyv pôvodných znakov na komponenty. Čísla (prvky) vlastných vektorov predstavujú komponentové váhy (saturácie) jednotlivých premenných pri tvorbe príslušného komponentu. Čím je hodnota aij vyššia, tým viac informácie o pôvodnej premennej Xj vysvetľuje komponent Yi . Dôležité je zistiť, všetky prememenné s vysokými váhami pre daný komponent. Komponent je potom tým javom (latentným znakom), ktorý stojí v pozadí premenných a snažíme sa ho vhodne interpretovať. Aká vysoká má byť váha? Obvykle sa ako vysoká váha považuje, ak I(aij )I>0,5.
Table of Principal Components Component Component Row Label 1 2 1 Integra -1.49203 0.00673575 2 Legend 2.37408 -0.247278 3 90 0.165636 -0.261873 4 100 2.23212 1.01524 5 535i 1.52815 -2.15174 6 Century 0.723227 1.39817 7 LeSabre 3.46805 0.778351 8 Roadmaster 6.6603 0.133406 9 Riviera 2.24466 -1.07736 STATGRAPHICS PCA – Komponentové skóre
Komponentové váhy - saturácie Table of Component Weights Component Component 1 2 Engine Size 0.332726 -0.133891 Horsepower 0.268123 -0.442852 Fueltank 0.311244 -0.210124 Passengers 0.238683 0.530291 Length 0.335379 0.02122 Wheelbase 0.335386 .0610323 Width 0,324896 -0,134248 U Turn Space 0,299218 .0830471 Rear seat 0,231256 0,3351 Luggage 0,276494 0,322776 Weight 0,337017 0.206599 The weights
PCA - Interpretácia výsledkov • Vlastné čísla h(eigenvalue) - vyjadrujú objem variability , ktorá je zachytená príslušným komponentom. Z hľadiska interpretácie nie sú dôležité konkrétne hodnoty , ale vyjadrenie ich podielu na celkovom rozptyle h /h • Koeficienty korelácie - koeficient korelácie vyjadruje na koľko daná pôvodná Xi ovplyvňuje nový HK Yi • čím je koeficient vyšší, o to viac vplýva pôvodnápremenná na nový HK • možno interpretovať v zmysle nových premenných r(xj, Yh)= ajh.h/sj • Ordinačné grafy objektov (pozorovaní ) - zobrazujú štatistické jednotky – objekty v súradnicovom systéme pôvodných premenných
Vlastné čísla Principal Components Analysis Component Percent of Cumulative Number Eigenvalue Variance Percentage 1 7.92395 72.036 72.036 2 1.32354 12.032 84.068 3 0.47071 4.279 88.347 4 0.353248 3.211 91.559 5 0.269048 2.446 94.004 6 0.190242 1.729 95.734 7 0.172892 1.572 97.306 8 0.107148 0.974 98.280 9 0.0824071 0.749 99.029 10 0.0694689 0.632 99.660 11 0.0373497 0.340 00.00
PCA – interpretácia výsledkov • Ordinačné grafy znakov(premenných) zobrazujú pôvodné premenné v novom súradnicovom systéme HK. Vplyv znaku na HK sa interpretuje tak, , že sa porovnávajú vektory jednotlivých znakov (spájajú nulový bod súradnicovej sústavy s príslušným znakom). Čím je vektor dlhší, tým je pôsobenie znaku silnejšie a čím je uhol medzi vektorom a príslušnou komponentovou osou menší, tým je vplyv znaku silnejší na daný komponent. • Biploty – zobrazujú pozorovania aj znaky ma jednom grafe, ktorého súradnicové osi tvoria zvolené komponenty. Umožňujú tak lepšiu interpretáciu podielu pôvodných znakov na komponenty. • Detekcia odľahlých pozorovaní v údajoch je možná na základe zobrazenia pozorovaní na priemete hlavného komponentu
úlohy metódy podmienky použitia Princíp metódy , jej podstata Výsledky, interpretácia numerických a grafických výstupov aplikácie PCA –nauč sa: