1 / 45

Vizualizacija podatkov

Vizualizacija podatkov. Gregor Leban. http://ai.fri.uni-lj.si/gregorl/ gregor.leban@fri.uni-lj.si. Pregled. Zakaj bi vizualizirali? Zgodovinski potek razvoja vizualizacije Klasifikacija vizualizacijskih metod Metode Geometrične Metode z ikonami Hierarhične Točkovne. Motivacija.

Download Presentation

Vizualizacija podatkov

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Vizualizacija podatkov Gregor Leban http://ai.fri.uni-lj.si/gregorl/ gregor.leban@fri.uni-lj.si

  2. Pregled • Zakaj bi vizualizirali? • Zgodovinski potek razvoja vizualizacije • Klasifikacija vizualizacijskih metod • Metode • Geometrične • Metode z ikonami • Hierarhične • Točkovne

  3. Motivacija • Ustvarjamo ogromne količine podatkov • v naslednjih 3 letih bomo ustvarili toliko podatkov, kot smo jih ustvarili v celotni dosedanji človeški zgodovini • Datamining • iskanje zakonitosti v podatkih • statistične metode, strojno učenje • Človek • Pasivni opazovalec • Aktivni udeleženec • Cilj: • Izraba človekovih vizualnih zmožnosti ter znanja • Izraba računalnikov za shranjevanje in hitro obdelavo velike količine podatkov

  4. Terminologija glede podatkov • Glede na vrednosti • Kvantitativni (lahko izvajamo aritmetične operacije) • Kategorični • Ordinalni (urejeni) : • Meseci: Jan, Feb, Mar, Apr, ... • Temperatura: Toplo, mlačno, hladno • Nominalni (neurejeni): • Sadje: jabolko, hruška, banana, ... • Vreme: sončno, oblačno, deževno, ... • Glede na dimenzionalnost (št. atributov) • Univariatni – 1 atribut • Bivariatni – 2 atributa • Trivariatni – 3 atributi • Multivariatni (hipervariatni) – 4 ali več atributov

  5. Razvoj vizualizacije podatkov • Relativno mlada smer • 4 faze razvoja: • do leta 1977 • Enostavni 2D grafi • Enostavno risanje na papir z raznimi barvicami • Statistiki • 1977 – 1986 [Izdaja knjige Exploratory data analysis (John Tukey)] • Pojav računalnikov – vizualizacija v realnem času • Še vedno večinoma 2D, 3D prikazi • 1986 – 1991 [NFS Workshop on Scientific Visualization] • Eksplozija novih metod (dobrih in slabih) • Velik poudarek na večdimenzionalnih podatkih • 1991 – danes • Obdobje omejevanja in ocenjevanja obstoječih metod • Združevanje raznih obstoječih metod • Glavne raziskave potekajo na temo ocenjevanja korektnosti, učinkovitosti in uporabnosti vizualizacijskih tehnik

  6. Možni kriteriji: Namen vizualizacije Tip ter dimenzionalnost podatkov Dimenzionalnost vizualizacijske metode Iskane značilke Tip vizualizacijske metode ... Klasifikacija vizualizacijskih metod • Obstaja velika množica vizualizacijskih metod • Klasifikacija je odvisna od izbranega kriterija

  7. Možni kriteriji: Namen vizualizacije Tip ter dimenzionalnost podatkov Dimenzionalnost vizualizacijske metode Iskane značilke Tip vizualizacijske metode ... Klasifikacija vizualizacijskih metod • Obstaja velika množica vizualizacijskih metod • Klasifikacija je odvisna od izbranega kriterija • Raziskovalna analiza • Začetek: podatki brez hipotez • Proces: interaktivno neusmerjeno iskanje nekih struktur, trendov • Rezultat: vizualizacija, ki prikaže dobljene hipoteze • Potrditvena analiza • Začetek: podatki s hipotezami • Proces: ciljno usmerjeno vizualiziranje • Rezultat: potrditev ali zavračanje hipoteze • Prezentacija • Začetek : dejstva, ki jih želimo predstaviti so določena že apriori • Proces: izbira primerne prezentacijske tehnike • Rezultat: kvalitetna vizualizacija podatkov

  8. Možni kriteriji: Namen vizualizacije Tip ter dimenzionalnost podatkov Dimenzionalnost vizualizacijske metode Iskane značilke Tip vizualizacijske metode ... Klasifikacija vizualizacijskih metod • Obstaja velika množica vizualizacijskih metod • Klasifikacija je odvisna od izbranega kriterija • zvezni atributi • kategorični atributi • Tekst • Hierarhije • Grafi

  9. Možni kriteriji: Namen vizualizacije Tip ter dimenzionalnost podatkov Dimenzionalnost vizualizacijske metode Iskane značilke Tip vizualizacijske metode ... Klasifikacija vizualizacijskih metod • Obstaja velika množica vizualizacijskih metod • Klasifikacija je odvisna od izbranega kriterija • 2D prikazi • 3D prikazi • Prikazi večjega števila dimenzij

  10. Možni kriteriji: Namen vizualizacije Tip ter dimenzionalnost podatkov Dimenzionalnost vizualizacijske metode Iskane značilke Tip vizualizacijske metode ... Klasifikacija vizualizacijskih metod • Obstaja velika množica vizualizacijskih metod • Klasifikacija je odvisna od izbranega kriterija • Gruče (clusters) • Zunanje točke (Outliers) • Struktura podatkov, trendi • Statistične značilnosti (srednje vrednosti, ...)

  11. Možni kriteriji: Namen vizualizacije Tip ter dimenzionalnost podatkov Dimenzionalnost vizualizacijske metode Iskane značilke Tip vizualizacijske metode ... Klasifikacija vizualizacijskih metod • Obstaja velika množica vizualizacijskih metod • Klasifikacija je odvisna od izbranega kriterija

  12. Tipi vizualizacijskih metod • Geometrične • Geometričen prikaz podatkov • Primeri: Razpršeni prikaz, projekcijsko iskanje, paralelne koordinate, PCA, MDS, • Metode z ikonami (Icon based) • Vsak podatek se preslika v neko figuro (ikono) • Primera: Chernoff faces, palične figure • Točkovne (Pixel-oriented) • Vsak podatek se preslika v en sam piksel na ekranu • Primera: Tehnika krožnih segmentov, tehnika rekurzivnih vzorcev • Hierarhične • Gnezdenje atributov • Primera: Nalaganje dimenzij, svetovi znotraj svetov • Hibridne metode • Poljubne kombinacije zgoraj omenjenih tehnik

  13. Geometrične tehnike Standardni 2D ter 3D prikazi Stolpični graf Histogram Linijski graf Tortni diagram

  14. Geometrične tehnike Razpršeni prikaz (scatterplot) NEODVISNI SPREMENLJIVKI • Ideja: prikaz relacije (korelacije) med dvema atributoma X in Y MOČNA LINEARNA KORELACIJA ZUNANJA TOČKA (OUTLIER)

  15. Geometrične tehnike Razpršeni prikaz (scatterplot) • Možen je tudi prikaz več atributov hkrati • Primer: Z = f(X,Y) Vrednost Zja je ponazarjena z velikostjo simbola • Slabost: malo različnih velikosti simbola  majhna resolucija

  16. Geometrične tehnike Razpršeni prikaz (scatterplot) • 2 možnost: Vrednost Zja je ponazorjena z barvo

  17. Geometrične tehnike Razpršeni prikaz (scatterplot) ODLOČITVENO DREVO X>1.6? True False Y>3? Z = a True False Z = c Z = b

  18. Geometrične tehnike Razpršeni prikaz (scatterplot) • Podatki o filmih: • Leto  X • Dolžina  Y • Popularnost  velikost • Žanr barva • Nagrada? oblika

  19. Geometrične tehnike Matrika razpršenih prikazov (scatterplot matrix) • Ideja: prikaz razpršenih prikazov za vse pare atributov • Dobro: • Lepo vidne odvisnosti med atributi • Slabo: • Težave pri večjem številu atributov in veliki količini podatkov

  20. Geometrične tehnike Matrika razpršenih prikazov (scatterplot matrix)

  21. Geometrične tehnike Matrika razpršenih prikazov (scatterplot matrix) • Interakcijska tehnika: Brushing • Uporabnik lahko v enem od prikazov izbere neko podmnožico točk in v ostalih prikazih preveri kam se te točke preslikajo

  22. Geometrične tehnike Mozaični prikaz (mosaic display) • Prikaz kategoričnih podatkov • Primer: Titanik • Težava: pomembna je izbira zaporedja atributov

  23. Geometrične tehnike Projekcijske metode • Težavi: • Visokodimenzionalne podatke podatke težko vizualiziramo • Prekletstvo dimenzionalnosti (Curse of dimensionality) • Ideja: poiščemo “zanimive” 2D projekcije podatkov • Projekcijske metode • PCA – Analiza osnovnih komponent • PP – Projekcijsko iskanje • MDS – Večstopenjsko lestvičenje

  24. Geometrične tehnike Analiza osnovnih komponent (Principal component analysis) • PCA je linearna metoda, ki pri N danih podatkih dimenzije d poišče c (c <=d) ortagonalnih vektorjev, ki najbolje predstavijo dane podatke (zajamejo maksimalno varianco v podatkih oz. minimizirajo srednjo kvadratno napako) • Grobo opisan postopek: • xi = [xi1, xi2,..., xid] ,i=1...N • Naj bo C kovariančna matrika za podatke xi • Uredimo lastne vektorje matrike C po velikosti: 1 >= 2>=...>=N • yi je lastni vektor, ki pripada lastni vrednosti i • Prvih c lastnih vektorjev določa PCA projekcijo dimenzije c

  25. Geometrične tehnike Analiza osnovnih komponent

  26. Geometrične tehnike Projekcijsko iskanje (Projection pursuit) • Večina projekcij podatkov je Gaussovih • Ideja: poiščimo čimbolj ne-Gausovo projekcijo podatkov, ki najbolje ohranja ločenost posameznih razredov • Slabost: težka interpretacija prikaza – osi so linearna kombinacija različnih atributov • (demo) DOBRA PROJEKCIJA SLABA PROJEKCIJA

  27. Geometrične tehnike Večrazsežno lestvičenje (Multidimensional scaling) • Vhod so N-dimenzionalni podatki in matrika različnosti (za vsak par podatkov imamo podano vrednost, koliko se podatka med sabo razlikujeta) • Podatke poskušamo projecirati v dvorazsežni prostor, pri čemer pa poskušamo podatke razporediti na tak način, da se bo evklidska razdalja med posameznimi podatki čim bolje ujemala z različnostjo podatkov • oijje različnost med podatkom i in podatkom j • dijje evklidska razdalja med projekcijo podatka i in podatka j • Optimizacijski problem: minimiziraj vsoto kvadrata napake

  28. Geometrične tehnike Večrazsežno lestvičenje (Multidimensional scaling) • Primer: hkratna pojavitev besed • Razdalja ustreza številu sopojavitev v posameznem članku iz enciklopedije

  29. Geometrične tehnike Paralelni koordinatni sistem (Parallel coordinate system) • Običajni (kartezični) koordinatni sistem • Vse osi so medsebojno ortagonalne • Paralelni koordinatni sistem • Vse osi so si med sabo paralelne • osi so enakomerno razmaknjene

  30. Geometrične tehnike Paralelni koordinatni sistem (Parallel coordinate system) • Primer uporabe: klasifikacija • Različni razredi so obarvani z različnimi barvami

  31. Geometrične tehnike Paralelni koordinatni sistem (Parallel coordinate system) • Paralelni koordinatni sistem omogoča analiziranje geometrije podatkov • Primer uporabe: iskanje korelacij med spremenljivkami

  32. Geometrične tehnike Paralelni koordinatni sistem (Parallel coordinate system) • Prednosti metode • Hkrati prikažemo lahko vse atribute • Vsi atributi so enakovredni • Slabosti metode • Že pri prikazu relativno majhne količine podatkov lahko pride do nepreglednosti (neuporabnosti) • Učinkovitost vizualizacije je odvisna od vrstnega reda atributov • Interaktivna metoda: Brushing (demo)

  33. Metode z ikonami Chernoff faces • Ideja: vrednosti atributov preslikamo na značilke ikon (figur) • Posamezne atribute preslikamo v posamezne značilke obraza • Značilke obraza, ki jih lahko uporabimo • Oblika glave • Oblika oči • Velikost oči • Razdalja med očmi • Naklon trepalnic • Velikost nosu • Vertikalni odmik ust • Širina ust • Odprtost ust • ... • Zakaj?Ljudje imamo velikosposobnost razpoznavanjaobrazov • Slabost: neenakovrednost atributov

  34. Metode z ikonami Chernoff faces • Primer: Rezultati zimskih olimpijskih iger

  35. Metode z ikonami Palične figure (stick figures) • Primerno za večdimenzionalne podatke • Vsakemu atributu pripada en sklep • Vrednost posameznega atributa se preslika v nagib ali dolžino sklepa • Zakaj?Ljudje imamo dobro razvito sposobnost razpoznavanja vzorcev (tekstur) • Slabost: uspešnost vizualizacije je zelo odvisna od izbrane preslikave atributov na sklepe PRIMER IKONE S KATERO LAHKO PRIKAŽEMO 5 ATRIBUTOV

  36. Metode z ikonami Palične figure (stick figures) • Primer: popis prebivalstva • Atributi: • Starost • Dohodek • Spol • Rasa • Status • Rojstna država • Zaposlitev • 2 atributa določata koordinatni osi • Ostali atributi so preslikani v različne naklone sklepov

  37. Hierarhične metode Nalaganje dimenzij (Dimension stacking) • Primerno za kategorične podatke z majhnim številom različnih vrednosti • Razdelimo n dimenzionalni prostor na 2D podprostore, ki jih nato vstavljamo enega v drugega • Primer: • 4 spremenljivke: X, Y, W, Z • Izberemo spremenljivki za zunanji koordinatni osi • Za vsako vrednost izbranih spremenljivk vstavimo 2D prikaz s preostalima spremenljivkama

  38. Hierarhične metode Nalaganje dimenzij (Dimension stacking) • Primer: črpanje nafte • Zunanji osi prikazujeta zemljepisno širino in višino • Notranji osi prikazujeta globino črpanja in kvaliteto nafte zemlj. višina zemlj. širina

  39. Hierarhične metode Svetovi znotraj svetov (Worlds within worlds) • Gnezdenje dimenzij • Na vsakem nivoju prikažemo 3 atribute • Ko uporabnik izbere točko v 3D prostoru se pojavi nov 3D prostor s tremi novimi atributi • Rekurzivno dokler niso določeni vsi atributi • Slabosti: • Prikaz je odvisen od preslikave atributov na koordinatne osi • Uporabnik mora vedeti kaj išče, ker so podatki vizualizirani šele na zadnjem nivoju

  40. Točkovne metode (Pixel oriented methods) Metoda krožnih segmentov (Circle segments technique) • Ideja: Preslikava vsakega podatka v eno barvno točko • Namen: Prikaz ogromne količine podatkov • Primerna za klasifikacijske naloge MNOŽICA PODATKOV ATRIBUTNI SEZNAMI

  41. Točkovne metode (Pixel oriented methods) Metoda krožnih segmentov (Circle segments technique) • Primer: 60 atributov in več kot tisoč učnih podatkov

  42. Točkovne metode (Pixel oriented methods) Metoda rekurzivnih vzorcev (Recursive pattern technique) • Slabost metode krožnih segmentov: zaradi trikotne oblike krožnega izseka je težko primerjati velikosti gruč • Boljši način je prikaz atributov v enako širokih vrsticah

  43. Točkovne metode (Pixel oriented methods) Metoda rekurzivnih vzorcev (Recursive pattern technique) • Primer: Program za interaktivno gradnjo odločitvenih dreves ATRIBUTI 1. NIVO 2. NIVO

  44. Povzetek • Za aktivno udeležbo človeka pri analizi podatkov je vizualizacija nujno potrebna • Vizualizacija pomaga pri odkrivanju zakonitosti v podatkih, pri potrjevanju hipotez ter pri sami prezentaciji podatkov • Obstaja velika izbira različnih metod (predstavil sem samo majhen del teh metod) • Izbira metode je odvisna od namena vizualizacije, tipa podatkov, iskanih značilk, ... • Ne obstaja metoda, ki bi bila uporabna v vseh primerih

  45. Reference • Pak Chung Wong, et al.: 30 years of multidimensional multivariate visualization • Proceedings to Visual Data Mining 2001 • Proceedings to Visual Data Mining 2002 • Mihael Ankers : Visual Data Mining (Ph.D.) • Daniel A. Keim: Visual Techniques for exploring large databases • Inderjit S. Dhillon, et al. : Class Visualization of High-dimensional data with applications • Inderjit S. Dhillon, et al. : Visualizing class structure of multidimensional data • William S. Cleveland : Visualizing data • Aleks Jakulin : Multidimensional Scaling • Dianne Cook : Grand tour and projection pursuit • Heike Hofmann: Graphical methods for categorical data analysis

More Related