1 / 74

Večrazsežno lestvičenje

Večrazsežno lestvičenje. Aleks Jakulin Fakulteta za računalništvo in informatiko. Vsebina. MDS Kaj je MDS? Kako je lahko uporaben? Kako ga implementirati? Brez podrobnosti. Brez izpeljav. Če vas zanimajo, vprašajte. Primerjava z ostalimi metodami SOM (self-organizing map)

Sophia
Download Presentation

Večrazsežno lestvičenje

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Večrazsežno lestvičenje Aleks Jakulin Fakulteta za računalništvo in informatiko

  2. Vsebina • MDS • Kaj je MDS? • Kako je lahko uporaben? • Kako ga implementirati? • Brez podrobnosti. Brez izpeljav. Če vas zanimajo, vprašajte. • Primerjava z ostalimi metodami • SOM (self-organizing map) • PCA (principal component analysis, metoda glavnih osi)

  3. obvezno Vhod: • konfiguracija: množica točk v n-D prostoru • matrika različnosti: za vsak par točk z indeksi i,j podamo različnost med njima, ki jo zapišemo kot oij ali ij • simetričnost: oij =oji • pozitivnost: oij  0 • refleksivnost: oii = 0 • razločljivost: oij = 0  i = j • trikotniška neenakost: oik +okj  oij

  4. Izhod: • Vsaki točki iz konfiguracije priredimo vektor v prostoru, tako da evklidske razdalje med preslikavami točk v prostoru čimbolj ustrezajo različnostim. • MDS lahko definiramo tudi za matrike podobnosti namesto za matrike različnosti, vendar se s tem tu ne bomo ukvarjali.

  5. Meritve pogostosti posameznih rastlin na več območjih

  6. Matrika podobnosti (!) med kraji meritev

  7. Neposredni grafični prikaz matrike različnosti svetlo = podobno temno = različno

  8. Hierarhično razvrščanje

  9. MDS

  10. Cenovna funkcija • Cenovna funkcijo (stress) v okviru MDS poskušamo minimizirati. Poznamo jih več vrst: • Kruskalova (vsota kvadrata napak) • Sammonova (relativne napake)

  11. Odvisnost cenovne funkcije od števila dimenzij Ko cenovna funkcija neha hitro padati, se nam neha splačati dodajanje dodatnih dimenzij.

  12. Obteženi MDS (WMDS) • Vsaki različnosti oijmed posameznim parom točk (i,j) pripišemo neko utež wij • To nam omogoča: • Neznane različnosti (če ne zapolnjujemo lukenj s trikotniško neenakostjo) • Različna pomembnost različnosti • Posebni primeri WMDS: • CCA: manjša kot je razdalja, večja je njena utež • LLE: k vsaki točki najmanjših različnosti ima uteži 1, ostale 0

  13. Optimizacijski postopki • Minimizacija kvadratne napake (least squares) • Minimizacija zgornje meje (majorizing function) • Gradientno iskanje (gradient descent), npr. Newton-Raphson • Drugo: • Simulirano ohlajanje (Simulated annealing) • Evolucijsko računanje • Tabu

  14. De Leuuwov SMACOF 1 • Scaling by MAjorizing a COmplicated Function • Enostaven iteracijski postopek, ki daje dobre rezultate, a ob počasni (linearni) konvergenci. Podpira skoraj vse razširitve MDS. • Da minimiziramo f(x), najdemo g(x,y), da je vedno g(x,y)  f(x), in da je g(y,y) = f(y). • Minimiziraj g(x,x0), dobiš x1, minimiziraj g(x,x1), itd.

  15. SMACOF 2 • Na začetku izračunamo (n x n) matriko V: • V vsaki iteraciji računamo (n x n) matriko Ry: • in z psevdoinverzom rešimo

  16. Psevdoinverz • Če je A singularna matrika, lahko vseeno namesto definiramo inverzu podobno matriko. • A razstavimo na singularne vrednosti: • In takole izračunamo Moore-Penrosov inverz, pri čemer neskončne vrednosti diagonalne matrike -1 postavimo na 0:

  17. Dodatne cenovne funkcije • SSTRESS: kvadratno odstopanje med kvadratom različnosti in kvadratom razdalje. Rešuje ga algoritem ALSCAL. • STRAIN: rešuje ga trivialen algoritem!

  18. Torgersonov postopek 1 • Deluje za osnovni metrični MDS in je uporaben kot začetni približek za iteracijske postopke. • Uporabi kosinusni izrek za pretvorbo matrike različnosti v matriko skalarnih produktov • S SVD (singular value decomposition) najdi preslikavo v n-D • Izberi najbolj informativne singularne vrednosti, ki določijo izbrane dimenzije.

  19. Torgersonov postopek 2 • Kvadrat matrike različnosti O dvojno centriraj (od vsakega elementa odštej povprečje stolpca in vrstice, prištej povprečje cele matrike ter deli z 2). Dobiš matriko B. • Reši problem SVD: B = ULUT • Če hočeš izhod MDS v k dimenzijah, v L pusti k največjih singularnih vrednosti, ostale pa postavi na 0. • X = UL1/2 • Minimizirana je razlika med B in XXT.

  20. Metrični in ne-metrični MDS • Metrični (Torgerson 1952) • Ne-metrični (Shepard 1961) • Oceni nelinearno obliko monotone funkcije, ki preslika različnosti ali podobnosti v neskladnosti (disparities), ki izvirnike nadomestijo • Shepardov diagram je graf te funkcije.

  21. Shepardov diagram Ne-metrični MDS • Urejenost razdalj mora biti čimbolj podobna urejenosti različnosti. • Postopek v fazah: • Optimizacija razdalj (navadni, metrični MDS) • Optimizacija monotone preslikave različnosti z izotonično regresijo (ali Least Squares Monotonic Transformation) • Ponavljaj 1-2 z novo matriko različnosti do konvergence ali dolgčasa. grafneskladnosti

  22. Ne-metrični postopek

  23. Ostale variante MDS • Večkratni MDS (Replicated MDS, Three-Way MDS):Imamo m matrik podobnosti za isto množico točk. Uporabljamo isto konfiguracijo, a drugačne monotone preslikave različnosti. • Razgrnitev (Multidimensional unfolding):Razdalje med elementi iz različnih skupin nas zanimajo, tiste med elementi znotraj skupin pa ne. • Omejeni MDS:Točke konfiguracije morajo ležati na neki mnogoterosti: na krogu, pravokotniku, v mreži, ipd.

  24. Pomen • Zmanjšamo razsežnost problema • Ustvarimo nove, informativne atribute • Človeku podamo razumljiv pregled matrike različnosti • Pohitrimo računanje • Odstranimo nepomembne odvisnosti • Zmanjšamo “redkost” (sparseness) matrik s podatki, povečamo signifikantnost statističnih izjav o podatkih

  25. Primeri • “Običajni” različnostni podatki • Ne-metrični MDS • Slikovni in časovni podatki • Risanje obteženih grafov • Strukture molekul • Vizualizacija metrik • Vizualizacija razvrščanja • Sinergija razvrščanja in MDS

  26. Avtomobili

  27. Značilnosti uporabnikov

  28. Bližina pomenov besed Razdalja: število sopojavitev v posameznem članku iz enciklopedije

  29. Barvni prostori

  30. Morsove kode

  31. Gibanje korelacij med borzami

  32. MDS na slikovnih podatkih Proximity grid (s SWO) Navadni MDS

  33. MDS in risanje grafov • Različnost para točk: najkrajša pot med točkama v grafu • Matrika uteži različnosti: 1/različnost

  34. Telefonski klici točka = telefon povezava = obstoj klica

  35. Sodelovanje med ljudmi Sodelovanje med ljudmi Povezava = Obstoj skupnega dela Utež povezave = Količina skupnega dela

  36. Interakcije med beljakovinami

  37. Od grafa kemičnih vezi do oblike molekule z MDS

  38. Permutacijske grupe

  39. Literatura v Sloveniji • Ksenija Kovačeč-Naglič, Zvonimir Bohte: • Večrazsežno lestvičenje, magistrsko delo (FRI-91) • Borg & Groenen: Modern multidimensional scaling : theory andapplications (VPŠ) • Cox & Cox: Multidimensional scaling (EF) • Kruskal & Wish: Multidimensional scaling (FF,FDV)

  40. Dodatne teme • Uporaba MDS v strojnem učenju • Metode, podobne MDS • SOM • PCA/ICA • MCA • Razvrščanje (clustering) • Metrike • Na vektorjih • Na matrikah združljivosti

  41. Analiza podobnosti med algoritmi strojnega učenja • Različnosti verjetnostnih porazdelitev klasifikatorja na primerih, Kullback-Leiblerjeva metrika.

  42. Analiza komplementarnosti med atributi

  43. Analiza združljivosti med atributi Vijolično privlači, modro odbija

  44. Od urejenih k zveznim atributom z MDS

  45. k je parameter, Sk je množica točk, ki jim je Wk najbližja.Wk nastopajo v regularni ali heksagonalni d-dimenzionalni mreži, ki predstavlja preslikavo. f in g sta preslikavi, ki ju določata plasti nevronske mreže “Nevronski” pristopi • Self-Organizing Map: • Auto-Associative Feedforward Network:

  46. Delovanje SOM

  47. Metoda glavnih osi (PCA) Znano tudi kot Karhunen-Loeve transform, Hotelling transform, Eigenanalysis, faktorska analiza, SVD (Singular Value Decomposition)

  48. Primerjava PCA in MDS PCA LLE Pri LLE ima neničelne uteži k najbližjih sosedov

  49. Države s SOM svetlo = lahko prehodna dolina temno = težko prehodno gorovje

  50. Independent Component Analysis (ICA) • ICA maksimizira združeno (joint)entropijo in minimizira vzajemno (mutual)informacijo med izhodnimi kanali. Najde smeri največje neodvisnosti za ne-Gaussovske podatke (statistike višjih redov). • PCA najde smeri največje variance priGaussovskih podatkih (statistike drugega reda).

More Related