1 / 15

Paskaita 5. Daugiamatis skaliavimas

DUOMENŲ GAVYBOS TECHN O LOGIJOS. Paskaita 5. Daugiamatis skaliavimas. Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>. Daugiamatis skaliavimas. Daugiamatis skaliavimas ( multidimensional scaling, MDS ) yra metodas, leid ž iantis atskleisti duomenų struktūrą.

Download Presentation

Paskaita 5. Daugiamatis skaliavimas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DUOMENŲ GAVYBOS TECHNOLOGIJOS Paskaita 5.Daugiamatisskaliavimas Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>

  2. Daugiamatis skaliavimas Daugiamatis skaliavimas (multidimensional scaling, MDS) yra metodas, leidžiantis atskleisti duomenų struktūrą. MDS tikslas - rasti daugiamačių duomenų konfigūraciją mažesnio matavimo erdvėje. Jis yra skirtas atvaizduoti daugiamačius duomenis į mažesnio matavimų skaičiaus, dažniausiai dvimatę arba trimatę, duomenų aibę.

  3. Daugiamatis skaliavimas Tokiu būdu transformavus duomenis, tampa lengviau pastebėti juose slypinčias struktūras. Daugiamačių duomenų vaizdavimas MDS metodais yra aktualus didelių masyvų duomenų struktūrinėms savybėms atskleisti, kadangi toks vaizdavimas išplečiaeuristinius žmonių gebėjimus analizuoti daugiamačius objektus.

  4. Daugiamatis skaliavimas MDS metodų privalumas tas, kad jais galima vaizduoti duomenų, susijusių labai sudėtingais ryšiais, aibes. Šiais metodais duomenys pateikiami žmogui aiškiausia ir suprantamiausia forma - dvimačiais ar trimačiais duomenų žemėlapiais.

  5. Daugiamatis skaliavimas MDS ieško panašumų ar skirtingumų tarp analizuojamų duomenų objektų. Tokiu būdu gautuose dvimačiuose arba trimačiuose grafikuose tie objektai, kurie yra panašūs, yra pavaizduojami arčiau vieni kitų, o mažiau panašūs – toliau vieni nuo kitų.

  6. Daugiamatis skaliavimas Tačiau MDS metodų taikymas turi trūkumų. Pavyzdžiui, praktiškai neišvengiami tam tikri duomenų iškraipymai, o tai gali apsunkinti duomenų analizę ir interpretavimą. Dažniausiai duomenų iškraipymai įvertinami įvedus paklaidos funkciją (STRESS FUNCTION), apskaičiuojamą pasinaudojus transformuojamų objektų panašumo arba skirtingumo matais.

  7. Skaliavimo duomenys Tarkime, duota daugiamatė imtis , , , čia n – požymių skaičius, N – objektų skaičius, kurią reikia atvaizduoti į mažesnio matavimų skaičiaus aibę: , , .

  8. Daugiamatis skaliavimas Pažymėkime atstumų (panašumų) matricas , , čia yra atstumai tarp k-tojo ir l-tojo objektų pradiniuose duomenyse, o yra atitinkami atstumai tarp šių objektų vaizdų, .

  9. Objektų panašumo (skirtingumo) matai Daugiamatėje analizėje dažniausiai naudojami tokie panašumo matai (metrikos): • Metriniai atstumo matai • Koreliacijos koeficientai • Asociatyvumo koeficientai Metriniai atstumo matai naudojami tada, kai objektus charakterizuojantys požymiai matuojami pagal intervalų arba santykių skalę. Asociatyvumo koeficientai taikomi binariniams duomenims

  10. Koreliacijos koeficientai Koreliacijoskoeficientaigali būtinaudojamiobjektų panašumui vertinti.

  11. Atstumo (skirtingumo) matai - Euklido matas: - Miesto matas (City metrics): - Euklido atstumo kvadrato matas: - Čebyševo matas:

  12. Trimatė Euklido metrika

  13. Paklaidų funkcijos Dažniausiai naudojamos šios paklaidų funkcijos:

  14. Paklaidų funkcijos STRESS1 funkcija su svoriais, parenkamais pagal paskutiniąją formule, yra vadinama Saimmono projekcija. Šios projekcijos taikymas leidžia labiau sumažinti iškraipymus, atsirandančius projektuojant duomenis į mažesnio matavimo erdvę.

  15. Paklaidų funkcijos minimizavimas Transformuotų duomenų iškraipymai turi būti kaip įmanoma mažesni. Tai pasiekiama minimizuojant STRESS arba STRESS1 funkciją pagal taškų koordinates vaizdų erdvėje, kuri yra mažesnio matavimų skaičiaus negu pradinė stebėjimų erdvė. Optimizavimui taikomi globalios paieškos metodų ir kvazi-Niutono algoritmo deriniai.

More Related