1 / 56

ANALIZA GLAVNIH KOMPONENATA

ANALIZA GLAVNIH KOMPONENATA. Analiza glavnih komponenata bavi se tumačenjem strukture matrice varijanci i kovarijanci skupa izvornih varijabli pomoću malog broja njihovih linearnih kombinacija. Osnovni ciljevi analize su: Redukcija podataka Interpretacija.

zasha
Download Presentation

ANALIZA GLAVNIH KOMPONENATA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ANALIZA GLAVNIH KOMPONENATA

  2. Analiza glavnih komponenata bavi se tumačenjem strukture matrice varijanci i kovarijanci skupa izvornih varijabli pomoću malog broja njihovih linearnih kombinacija. • Osnovni ciljevi analize su: • Redukcija podataka • Interpretacija

  3. Premda je p ulaznih varijabli odabrano kako bi se opisala varijablnost cijelog sustava, često je velik dio tog varijabiliteta opisan malim brojem k glavnih komponenata (k<p) . Ako je to ispunjeno, k glavnih komponenata sadrži jednaku količinu informacija kao p ulaznih varijabli.

  4. Stoga se početni skup podataka koji se sastoji od n mjerenja na p ulaznih varijabli može reducirati na skup od n mjerenja na k glavnih komponenata. Analiza glavnih komponenata otkriva povezanost među varijablama i stoga dozvoljava interpretacije do kojih se inače bez ovako provedene analize ne bi došlo.

  5. Analiza glavnih komponenata često služi kao međukorak za provođenje drugih metoda kao primjerice: • regresijske • klaster • ili faktorske analize.

  6. Algebarski, glavne komponente su linearne kombinacije p slučajnih varijabli . Geometrijski su te linearne kombinacije koordinatne osi novog koordinatnog sustava dobivenog rotacijom oko starog s glavnim komponentama kao koordinatnim osima.

  7. Kao što će se vidjeti, glavne komponente reprezentiraju smjer maksimalnog varijabiliteta i omogućuju jednostavniji opis kovarijančne strukture. • Također će se vidjeti da glavne komponente ovise samo o matrici varijanci i kovarijanci (odnosno o korelacijskoj matrici ) polaznih varijabli

  8. Neka slučajni vektor ima matricu varijanci i kovarijanci sa svojstvenim vrijednostima (eigenvalues, latent roots):

  9. Promotrimo linearne kombinacije: (1.1)

  10. Svojstvo varijance:

  11. Odatle je: (1.2)

  12. Glavne komponente su one linearne kombinacije čije su varijance što je moguće veće. Prva glavna komponenta je linearna kombinacija s najvećom varijancom.

  13. S obzirom da se varijanca može povećati množenjem vektora konstantom, pažnja se ograničava na vektore koeficijenata duljine jedan.

  14. Prva glavna komponenta = linearna kombinacija koja maksimizira uz uvjet Druga glavna komponenta = linearna kombinacija koja maksimizira i uz uvjet

  15. . . . i-ta glavna komponenta = linearna kombinacija uz uvjet koja maksimizira i

  16. TEOREM 1 Neka je matrica varijanci i kovarijanci pridružena slučajnom vektoru Neka su parovi svojstvenih vrijednosti i svojstvenih vektora matrice Pri čemu vrijedi:

  17. Tada je i-ta glavna komponenta određena s: (1.3) Uz takav izbor (1.4) Ako su neke svojstvene vrijednosti međusobno jednake izbor odgovarajućih koeficijenata vektora ei, dakle i Yi nije jednoznačan.

  18. Dokaz: (dostignuto ako je ) No , jer su svojstveni vektori normalizirani. Odatle je:

  19. . Posljedica ovog teorema je da su glavne komponente nekorelirane i da su im varijance jednake svojstvenim vrijednostima matrice

  20. TEOREM 2

  21. DOKAZ:

  22. kao posljedica ovog rezultata proporcija ukupne varijance protumačene k-tom glavnom komponentom je: Ako je velikii dio varijance (80%-90%) protumačen s jednom, dvije ili tri glavne komponente,tada te komponente mogu bez većeg gubitka informacija zamijeniti početnih p varijabli.

  23. TEOREM 3

  24. DOKAZ:

  25. Premda korelacije između ulaznih varijabli i glavnih komponenata često pomažu pri interpretaciji komponenata, one mjere samo univarijatni doprinos jedne varijable na komponentu . • Koeficijenti linearne korelacije ne pokazuju važnost individualne varijable na u prisustvu drugih varijabli.

  26. Zbog toga statističari preporučuju da se pri interpretaciji komponenata koriste samo koeficijenti No, iako koeficijenti i koeficijenti korelacije, kao mjere značajnosti varijabli vode do različitih rangiranja, u praksi varijable s relativno visokim koeficijentima (po apsolutnoj vrijednosti) imaju i relativno visoke korelacije. Stoga dvije mjere važnosti varijabli, od kojih je prva multivarijatna, a druga univarijatna daju često slične rezultate.

  27. Glavne komponente izračunate polazeći od standardiziranih varijabli

  28. Glavne komponente mogu se izvesti pomoću svojstvenih vektora korelacijske matriceod X. • Svi se ranije izvedeni rezultati mogu primijeniti uz određena pojednostavljenja, s obzirom da su varijance standardiziranih varijabli jednake 1. Nastavit ćemo s oznakama za i-tu glavnu komponentu i za par i-te svojstvene vrijednosti i pridruženog i-tog svojstvenog vektora matrice ili matrice .

  29. TEOREM 4

  30. DOKAZ

  31. Primjer 1.1 • Svojstvene vrijednosti korelacijske matrice za 5 mjerenja na 49 ženskih vrabaca • Primjenom programskog paketa Statistica dobiveni su između ostalih slijedeći rezultati:

  32. Svojstvene vrijednosti i pridruženi pokazatelji

  33. Svojstvene vrijednosti su varijance glavnih komponenata. Zbroj svojstvenih vrijednosti iznosi 5. U drugom je stupcu izračunat postotak ukupne varijance objašnjen svakom glavnom komponentom, a u 4. je dan kumulativni niz postotaka iz drugog stupca. Tako je npr prvom glavnom komponentom objašnjeno 72.18% ukupne varijance, drugom 10.62%, odnosno s prve dvije glavne komponente protumačeno je 82.80% ukupne varijance.

  34. Drugi način gledanja na relativnu važnost pojedinih komponenata je uspoređivanje njihovih varijanci s varijancama ulaznih standardiziranih varijabli (koje su jednake 1). • Prva glavna komponenta ima varijancu 3.609 puta veću od varijance originalnih standardiziranih varijabli, druga ima varijancu samo 0.531 od varijance originalnih standardiziranih varijabli, a preostale glavne komponente objašnjavaju još manji dio varijacija. To potvrđuje važnost prve glavne komponente u odnosu na ostale.

  35. Svojstveni vektori korelacijske matrice

  36. Vrijednosti glavnih komponenata mogu se koristiti za daljnje analize. One se računaju iz standardiziranih varijabli.

  37. U slijedećoj tabeli navedene su sredine (Means) i standardne devijacije (Std. Dev.) ulaznih varijabli:

  38. Standardizirane vrijednosti mjerenja za prvog vrapca su:

  39. Vrijednosti (za prva četiri vrapca) su predočene u slijedećoj tabeli:

  40. Promatrane ptice pokupljene su nakon snažne oluje. Prvih 21 vrabaca se oporavilo i preživjelo, a ostalih 28 je uginulo. Pitanje, pokazuju li preživjeli i uginuli vrapci bilo kakve razlike. Sa stajališta analize glavnih komponenata može se promatrati dijagram rasipanja za 49 vrijednosti prve i druge glavne komponente.

More Related