1 / 42

ANALÝZA HLAVNÝCH KOMPONENTOV

ANALÝZA HLAVNÝCH KOMPONENTOV. P rincipal C omponent A nalysis. X 1. X 2. X 3. X 4. X 5. X 6. X 7. X 8. X 9. X 10. X 11. X p. 1. 2. 3. 4. 5. n. Viacrozmerné metódy -údaje. n > p. Metódy analýzy skrytých vzťahov. Často v praxi vzniká problém :

jodie
Download Presentation

ANALÝZA HLAVNÝCH KOMPONENTOV

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ANALÝZA HLAVNÝCH KOMPONENTOV PrincipalComponentAnalysis

  2. X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 Xp 1 2 3 4 5 n Viacrozmerné metódy -údaje n > p

  3. Metódy analýzy skrytých vzťahov

  4. Často v praxi vzniká problém: • začiatočný počet premenných, popisujúcich objekty (pozorovania) je vysoký a naviac premenné sú vzájomne korelované (problém multikolinearity) . • zjednodušením môže byť vytvorenie menšieho počtu znakov (premenných) bez podstatnej straty informácie • K riešeniu tohto problému boli vytvorené dve metódy: • Analýza hlavných komponentov – PrincipalComponentsAnalysis – PCA • Faktorová analýza – FactorAnalysis - FA • PCA a FA patria do metód analýzy skrytých vzťahov • a metód zníženia dimenzie

  5. Analýza hlavných komponentov Okruhy, ktorým budeme venovať pozornosť: • Matematické a geometrické vyjadrenie hlavných komponentov • Hlavné komponenty • Interpretácia hlavných komponentov • Ilustratívne príklady v SAS EG

  6. Analýza hlavných komponentov PCA = metóda analýzy skrytých vzťahov: • premenné nemožno logicky rozdeliť do dvoch skupín na závislé a nezávislé • cieľom je pochopiť alebo identifikovať prečo a ako sú premenné navzájom prepojené, t.j. ako sa navzájom ovplyvňujú • ak sú premenné navzájom prepojené – korelované, možno rovnaký objem informácií vystihnúťmenším počtom premenných – zníženie dimenzie • Metódy vychádzajú z analýzy kovariačnejresp. korelačnej matice pôvodných premenných a pokúšajú sa nájsť skryté – nemerateľné- latentné premenné = premenné sa nedajú merať, ale majú schopnosť vecnej interpretácie.

  7. Analýza hlavných komponentov PCA – využitie v praxi Finančný analytik - zistenie finančného zdravia firmy. Na základe veľkého počtu ukazovateľov znakov (napr. 120) je nákladné, náročné a ťažko interpretovateľné hodnotenie finančného zdravia podniku. Úloha analytika: vytvorenie menšieho počtu ukazovateľov (3, viac), resp. indexov, ktoré sú lineárnymi kombináciami pôvodných 120 ukazovateľov Marketingový manažér – vytvorenie regresného modelu pre predpoveď predaja – problém multikolinearity zvolených premenných (skreslenie smerod. odchýlok a nestabilita modelu). Snaha o vytvorenie nových premenných, ktoré sú lineárnymi kombináciami pôvodných premenných, ale už nie sú korelované . Pre regresný model budú použité nové premenné Kontrola kvality– snaha vytvoriť z dostupných ukazovateľov nové zložené ukazovatele (indexy ) o procese výroby – využitie pri kontrole kvality

  8. Analýza hlavných komponentov • Charakteristika • predmetom analýzy je skupina kvantitatívnych premenných • je metóda, ktorá umožňuje vytvárať nové premenné, ktoré sú lineárnou kombináciou pôvodných premenných • nové premenné sa nazývajú hlavné komponenty (HK) • Cieľ • Identifikácia odľahlých pozorovaní, resp. vplyvných pozorovaní (outliers) • Zníženie dimenzie (premenných) viacrozmernej analýzy • Odstránenie závislosti medzi premennými, následné použitie HK v zhlukovej analýze, resp. pri tvorbe regresných modelov na odstránenie multikolinearity

  9. Matematické a geometrické vyjadrenie HK • Každá štatistická jednotka je charakterizovaná viacerými ukazovateľmi (premenné, znaky), predstavuje body v p-rozmernom priestore (p=počet sledovaných premenných) • Každá z pôvodných premenných má v súbore nejakú variabilitu, meranú rozptylom. Rozptyl je nositeľom informácie. • Pozn. Ak premenná nemá pre dané pozorovania žiadnu variabilitu, všetky pozorovania majú rovnakú hodnotu. Nemôžeme na základe tejto premennej pozorovania odlíšiť a teda nám nedáva žiadnu informáciu ich charaktere. • Celkový objem informácie získame súčtom rozptylov jednotlivých premenných

  10. Matematické a geometrické vyjadrenie HK • PCA je ordinálna metóda, ktorá umožňuje redukovať počet dimenzií v euklidovskom priestore (definovanom korelovanými premennými ) tak, aby nedošlo k strate informácií • Pôvodných p vzájomne korelovaných (pozorovaných) premenných je nahradených novými q vzájomne nekorelovanými, nemerateľnými „syntetickými“ premennými tak, že prvá nová súradnicová os (prvý HK) je vedená v smere maximálnej variability medzi objektmi. Druhá os je (druhý HK) je kolmá na prvú os a je vedená v smere druhej najväčšej variability medzi objektmi, atď . • Relatívna pozícia objektov v pôvodnom priestore a v novom priestore (danom HK) je rovnaká,tzn. pôvodný súradnicový systém sa natáča do smeru max. variability medzi objektmi, pričom euklidovské vzdialenosti medzi objektmi sa zachovávajú.

  11. Matematické a geometrické vyjadrenie HK V grafickej prezentácii: Uvažujeme, že každý objekt je meraný len dvomi ukazovateľmi (x1, x2). Pôvodný súradnicový systém posúvame do nového systému v smere najväčšej variability. Súradnice bodu A vzhľadom na nové osi sú lineárnou kombináciou súradníc vzhľadom na pôvodné osi. X2 A X1

  12. Hlavné komponenty Cieľ PCA:nájdenie skutočného (nového) rozmeru, v ktorom sa údaje nachádzajú. Pre splnenie tejto úlohy je výhodné určiť nové súradnicové osi tak, aby platili podmienky V1 až V5 • V1Vzájomná poloha bodov v p-rozmernom priestore (pozorovaní) sa nemení . Nové osi predstavujú nové umelé premenné - hlavné komponenty, HK. Nové hodnoty premenných na štatistických jednotkách (pozorovaniach) nazývame komponentové body. • V2 Každá z nových premenných je lineárnou kombináciou pôvodných p-premenných • V3 Nové premenné – HK, ktorých počet je max. p, sú navzájom nekorelované. • V4 Prvý HK vysvetľuje najväčšiu časť variability údajov, preto je najdôležitejší. Myslí sa tým najväčšiu časť zo súčtu rozptylov všetkých p pôvodných premenných. • V5 Každý ďalší HK vysvetľuje čo najväčšiu časť zo zostávajúcej variability údajov tak, že na posledný komponent ostane už len nepatrný zvyšok.

  13. Hlavné komponenty Predpokladajme, že súbor pôvodných p – premenných X1, X2, ..., Xp transformujeme na nové premenné Y1, Y2, ...,Yp – hlavné komponenty tak, že sú lineárnou kombináciou pôvodných premenných. premenné hlavné komponenty X1 X2 X3 X4 X5 X6 Xp Y1 Y2 Y3 Yq 1 2 PCA 3 4 p  q 5 n Y1 = a11 x1 + a12 x2 + a13 x3 + …. + a1p xp Y2 = a21 x1 + a22 x2 + a23 x3 + …. + a2p xp ...

  14. Y1 = a11 x1 + a12 x2 + a13 x3 + …. + a1p xp Y2 = a21 x1 + a22 x2 + a23 x3 + …. + a2p xp Y3 = a31 x1 + a32 x2 + a33 x3 + …. + a3p xp …. Yp = ap1 x1 + ap2 x2 + ap3 x3 + …. + app xp Hlavné komponenty • Hlavné komponenty sú lineárnou kombináciou pôvodných premenných Hlavnékomponenty koeficientyaij,saturácie, váhy • Hlavné komponenty Yi • maximálne možno vytvoriť rovnaký počet HK ako pôvodných premenných, • každý HK je lineárnou kombináciou pôvodných premenných, • nové premenné sú navzájom nekorelované (nezávislé)

  15. Hlavné komponenty Koeficienty aij , váhy, saturácie sú odhadované tak, že: • sú splnené podmienky V1 až V5. • celková variabilita sa nezmení , t.j. rozptyl nových a pôvodných premenných sa rovná 1, t.j. aij2= 1 ai12 + ai22 + ..+ aip2 = 1, pre každé i=1, 2,...p • nové premenné boli navzájom nezávislé, čo zabezpečuje vzťah ai1aj1 + ai2aj2 + ….+ aipajp= 0 pre i  j a i, j =1,2,...,p

  16. Hlavné komponenty Vlastnosti hlavných komponentov: • E(Yi)= 0, i=1, 2, ..., p • D(Yi) = i , i=1, 2, ..., p i vlastné čísla (eigenvalue) kovariačnej matice, pre ktoré platí : 1 2 3 ...  p • cov (Yi,Yj) = 0, i≠j • D(Y1)  D(Y2)  D(Y3) ….  D(Yp)  0 • cov(Xi,Xj) = aijj a ich koeficient korelácie

  17. PCA - úprava údajov Pred odhadom je potrebné rozhodnúť z akých údajov sa bude vychádzať. • ak majú rovnakú mernú jednotku – vychádzame z kovariačnej matice. Je to vhodnejšie, pretože k-ty HK je taká lineárna kombinácia premenných, ktorý vysvetľuje k-tu najväčšiu časť celkového rozptylu. Maximalizácia tohto rozptylu pri normovaných premenných má umelý charakter. • ak majú rôzne merné jednotky – vychádzame z korelačnej matice • je potrebné brať do úvahy normované (štandardizované) hodnoty, aby sme ich previedli na spoločný základ.

  18. Analýza hlavných komponentov Rozlišujeme nasledovné typy PCA – podľa toho, z čoho vychádzame pri výpočte. • Centrovaná PCA – vychádzame z kovariančnej matice. Začiatočný bod novej súradnicovej sústavy je posunutý z pôvodného bodu do centroidu objektov (centroid = hypotetický objekt, kt. predstavuje priemerný objekt. Vzdialenosti medzi objektami sú rovnaké v novom aj v pôvodnom systéme. • Štandardizovaná PCA – vychádzame z korelačnej matice. Začiatočný bod novej súradnicovej sústavy je posunutý z pôvodného bodu do centroiduobjektov a súčasne sú pôvodné hodnoty normované (ich rozptyl = 1) • Necentrovaná PCA – vychádzame z pôvodných premenných. Začiatočný bod nového systému je v tom istom bode ako bol v pôvodnom systéme.

  19. Určenie počtu HK Len niekoľko prvých HK stačí vysvetliť celkový rozptyl pôvodných údajov. Existuje niekoľko pravidiel na určenie optimálneho počtu HK: • Podľa vlastnej úvahy o potrebe zachovania informácií (vlastné čísla, ktoré vysvetľujú napr. 90% variability) • Kaiserovo pravidlo: použiť tie HK, ktorých vlastné číslo je väčšie ako priemer všetkých vlastných čísel. Pri normovaných údajoch sa priemer=1, t.j. berieme tie HK, ktorých eigenvalue> 1. • Použiť HK, ktoré spolu vysvetľujú aspoň 70% celkového rozptylu • Vychádzať z grafického zobrazenia, z tzv. Scree Plot grafu – nájsť zlom v tomto grafe a do úvahy brať HK po tento zlom. • Andersonove pravidlo (test sféričnosti): test hypotézy: len prvých q vlastných čísel je určených jednoznačne, ostatné sú rovnaké. • H0 : q+1= q+2= …. = p = 0 • H1 : neplatí H0 • začneme q=0 => ak platí H1 => HK1 je štat. významný. Pokračujeme, kým sa nepotvrdí H0. Testovacie kritérium má chí- kvadrát rozdelenie (SAS tento test neposkytuje).

  20. Scree Plot graf

  21. Interpretácia výsledov • Komponentové skóre (componentscores)- predstavuje súradnice objektu v novom priestore definovanom HK. Jeho hodnotu pre j-túštat. jednotku (j=1,2,...,n) v i-tom komponente vypočítame podľa: yij= aij(xj–xpr) (aij = vij) • Vlastné vektory – kosínusy (eigenvectors) - vyjadrujú smer vektorov, ktoré charakterizujú vplyv pôvodných znakov na komponenty. Čísla vlastných vektorov = komponentové váhy (saturácie) jednotlivých premenných pri tvorbe príslušného komponentu. Čím je hodnota aijvyššia, tým viac informácie o pôvodnej premennej Xj vysvetľuje komponent Yi . Dôležité je zistiť všetky premenné s vysokými váhami pre daný komponent. Komponent sa potom snažíme vhodne interpretovať. Všímame si vysoké váhy, t.j. I(aij)I>0,5. • Vlastné čísla h(eigenvalue) - vyjadrujú mieru variability, ktorá je zachytená príslušným komponentom. Z hľadiska interpretácie nie sú dôležité ich konkrétne hodnoty, ale vyjadrenie ich podielu na celkovom rozptyle.

  22. Interpretácia výsledov • Koeficienty korelácie premenných s komponentami- koeficient korelácie vyjadruje nakoľko daná pôvodná Xi ovplyvňuje nový HK Yi čím je koeficient vyšší, o to viac vplýva pôvodná premenná na nový HK • Ordinačné grafy objektov (pozorovaní) - zobrazujú štatistické jednotky – objekty v súradnicovom systéme pôvodných premenných • Ordinačné grafy znakov (premenných) - zobrazujú pôvodné premenné v novom súradnicovom systéme HK. Vplyv hodnotíme na základe porovnania vektorov jednotlivých znakov, t.j. čím je vektor dlhší, tým je pôsobenie znaku silnejšie a čím je uhol medzi vektorom a príslušnou komponentovou osou menší, tým je vplyv znaku silnejší na daný komponent. • Biploty – zobrazujú pozorovania aj znaky ma jednom grafe, ktorého súradnicové osi tvoria zvolené komponenty. Slúžia tak na lepšiu interpretáciu podielu pôvodných znakov na komponenty. • Detekcia odľahlých pozorovaní - na základe zobrazenia pozorovaní na priemete hlavného komponentu.

  23. Ilustratívny príklad v SAS EG K dispozícii údaje o 93 (n=93) modeloch áut rôznych značiek: Skúmané parametre jednotlivých automobilov: • EngineSizeObjem motora • Horsepower Výkon motora • Fueltank Objem nádrže • Passengers Počet miest v aute • Lengh Dĺžka auta • Wheelbase Rázvor náprav • Width Šírka auta • U TurnSpace Vzdialenosť potrebná pri otáčaní auta • Rearseat Priestor na sedenie na zadnom sedadle • Luggage Objem batoživnového priestoru • Weight Hmotnosť auta

  24. Ilustratívny príklad v SAS EG Úloha: posúďte pomocou PCA, či je možné vyjadriť rovnaký objem informácií menším počtom premenných. Krok 1: Overiť, či je možné redukovať počet premenných Existencia multikolinearity – pomocou korelačnej matice

  25. Ilustratívny príklad v SAS EG Krok 2: Redukovať počet premenných pomocou PCA SAS: Task/Multivariate/PrincipalComponents ...

  26. Ilustratívny príklad v SAS EG SAS: Zadať analyzované (pôvodné) premenné – záložka Data

  27. Ilustratívny príklad v SAS EG SAS: záložka Analysis

  28. Ilustratívny príklad v SAS EG SAS: záložka Plots

  29. Ilustratívny príklad v SAS EG SAS: záložka Results

  30. Ilustratívny príklad v SAS EG SAS: záložka Plots

  31. Ilustratívny príklad v SAS EG SAS: Výstupy

  32. Ilustratívny príklad v SAS EG SAS: Výstupy - Eigenvalues – Vlastné čísla

  33. Ilustratívny príklad v SAS EG SAS: Výstupy - Eigenvectors – Vlastné vektory - všetky

  34. Ilustratívny príklad v SAS EG SAS: Výstupy - Eigenvectors – Vlastné vektory – len významné PRN1: váhy sú približne rovnaké PRN2: významné: passengers, rearseat - pozitívne korelované luggage horsepower – negatívne korelovaný

  35. Ilustratívny príklad v SAS EG SAS: grafický výstup1: SCREE PLOT

  36. Ilustratívny príklad v SAS EG SAS: grafický výstup2: Matica komponentového skóre

  37. Ilustratívny príklad v SAS EG SAS: grafický výstup3: Vlastné vektory

  38. Ilustratívny príklad v SAS EG SAS: grafický výstup4: Komponentové skóre

  39. Ilustratívny príklad v SAS EG SAS: grafický výstup5: Vlastné vektory

  40. Ilustratívny príklad v SAS EG SAS: Výstup1

  41. Ilustratívny príklad v SAS EG SAS: Výstup2

More Related