460 likes | 744 Views
Vizualizacija podatkov. Gregor Leban. http://ai.fri.uni-lj.si/gregorl/ gregor.leban@fri.uni-lj.si. Pregled. Zakaj bi vizualizirali? Zgodovinski potek razvoja vizualizacije Klasifikacija vizualizacijskih metod Metode Geometrične Metode z ikonami Hierarhične Točkovne. Motivacija.
E N D
Vizualizacija podatkov Gregor Leban http://ai.fri.uni-lj.si/gregorl/ gregor.leban@fri.uni-lj.si
Pregled • Zakaj bi vizualizirali? • Zgodovinski potek razvoja vizualizacije • Klasifikacija vizualizacijskih metod • Metode • Geometrične • Metode z ikonami • Hierarhične • Točkovne
Motivacija • Ustvarjamo ogromne količine podatkov • v naslednjih 3 letih bomo ustvarili toliko podatkov, kot smo jih ustvarili v celotni dosedanji človeški zgodovini • Datamining • iskanje zakonitosti v podatkih • statistične metode, strojno učenje • Človek • Pasivni opazovalec • Aktivni udeleženec • Cilj: • Izraba človekovih vizualnih zmožnosti ter znanja • Izraba računalnikov za shranjevanje in hitro obdelavo velike količine podatkov
Terminologija glede podatkov • Glede na vrednosti • Kvantitativni (lahko izvajamo aritmetične operacije) • Kategorični • Ordinalni (urejeni) : • Meseci: Jan, Feb, Mar, Apr, ... • Temperatura: Toplo, mlačno, hladno • Nominalni (neurejeni): • Sadje: jabolko, hruška, banana, ... • Vreme: sončno, oblačno, deževno, ... • Glede na dimenzionalnost (št. atributov) • Univariatni – 1 atribut • Bivariatni – 2 atributa • Trivariatni – 3 atributi • Multivariatni (hipervariatni) – 4 ali več atributov
Razvoj vizualizacije podatkov • Relativno mlada smer • 4 faze razvoja: • do leta 1977 • Enostavni 2D grafi • Enostavno risanje na papir z raznimi barvicami • Statistiki • 1977 – 1986 [Izdaja knjige Exploratory data analysis (John Tukey)] • Pojav računalnikov – vizualizacija v realnem času • Še vedno večinoma 2D, 3D prikazi • 1986 – 1991 [NFS Workshop on Scientific Visualization] • Eksplozija novih metod (dobrih in slabih) • Velik poudarek na večdimenzionalnih podatkih • 1991 – danes • Obdobje omejevanja in ocenjevanja obstoječih metod • Združevanje raznih obstoječih metod • Glavne raziskave potekajo na temo ocenjevanja korektnosti, učinkovitosti in uporabnosti vizualizacijskih tehnik
Možni kriteriji: Namen vizualizacije Tip ter dimenzionalnost podatkov Dimenzionalnost vizualizacijske metode Iskane značilke Tip vizualizacijske metode ... Klasifikacija vizualizacijskih metod • Obstaja velika množica vizualizacijskih metod • Klasifikacija je odvisna od izbranega kriterija
Možni kriteriji: Namen vizualizacije Tip ter dimenzionalnost podatkov Dimenzionalnost vizualizacijske metode Iskane značilke Tip vizualizacijske metode ... Klasifikacija vizualizacijskih metod • Obstaja velika množica vizualizacijskih metod • Klasifikacija je odvisna od izbranega kriterija • Raziskovalna analiza • Začetek: podatki brez hipotez • Proces: interaktivno neusmerjeno iskanje nekih struktur, trendov • Rezultat: vizualizacija, ki prikaže dobljene hipoteze • Potrditvena analiza • Začetek: podatki s hipotezami • Proces: ciljno usmerjeno vizualiziranje • Rezultat: potrditev ali zavračanje hipoteze • Prezentacija • Začetek : dejstva, ki jih želimo predstaviti so določena že apriori • Proces: izbira primerne prezentacijske tehnike • Rezultat: kvalitetna vizualizacija podatkov
Možni kriteriji: Namen vizualizacije Tip ter dimenzionalnost podatkov Dimenzionalnost vizualizacijske metode Iskane značilke Tip vizualizacijske metode ... Klasifikacija vizualizacijskih metod • Obstaja velika množica vizualizacijskih metod • Klasifikacija je odvisna od izbranega kriterija • zvezni atributi • kategorični atributi • Tekst • Hierarhije • Grafi
Možni kriteriji: Namen vizualizacije Tip ter dimenzionalnost podatkov Dimenzionalnost vizualizacijske metode Iskane značilke Tip vizualizacijske metode ... Klasifikacija vizualizacijskih metod • Obstaja velika množica vizualizacijskih metod • Klasifikacija je odvisna od izbranega kriterija • 2D prikazi • 3D prikazi • Prikazi večjega števila dimenzij
Možni kriteriji: Namen vizualizacije Tip ter dimenzionalnost podatkov Dimenzionalnost vizualizacijske metode Iskane značilke Tip vizualizacijske metode ... Klasifikacija vizualizacijskih metod • Obstaja velika množica vizualizacijskih metod • Klasifikacija je odvisna od izbranega kriterija • Gruče (clusters) • Zunanje točke (Outliers) • Struktura podatkov, trendi • Statistične značilnosti (srednje vrednosti, ...)
Možni kriteriji: Namen vizualizacije Tip ter dimenzionalnost podatkov Dimenzionalnost vizualizacijske metode Iskane značilke Tip vizualizacijske metode ... Klasifikacija vizualizacijskih metod • Obstaja velika množica vizualizacijskih metod • Klasifikacija je odvisna od izbranega kriterija
Tipi vizualizacijskih metod • Geometrične • Geometričen prikaz podatkov • Primeri: Razpršeni prikaz, projekcijsko iskanje, paralelne koordinate, PCA, MDS, • Metode z ikonami (Icon based) • Vsak podatek se preslika v neko figuro (ikono) • Primera: Chernoff faces, palične figure • Točkovne (Pixel-oriented) • Vsak podatek se preslika v en sam piksel na ekranu • Primera: Tehnika krožnih segmentov, tehnika rekurzivnih vzorcev • Hierarhične • Gnezdenje atributov • Primera: Nalaganje dimenzij, svetovi znotraj svetov • Hibridne metode • Poljubne kombinacije zgoraj omenjenih tehnik
Geometrične tehnike Standardni 2D ter 3D prikazi Stolpični graf Histogram Linijski graf Tortni diagram
Geometrične tehnike Razpršeni prikaz (scatterplot) NEODVISNI SPREMENLJIVKI • Ideja: prikaz relacije (korelacije) med dvema atributoma X in Y MOČNA LINEARNA KORELACIJA ZUNANJA TOČKA (OUTLIER)
Geometrične tehnike Razpršeni prikaz (scatterplot) • Možen je tudi prikaz več atributov hkrati • Primer: Z = f(X,Y) Vrednost Zja je ponazarjena z velikostjo simbola • Slabost: malo različnih velikosti simbola majhna resolucija
Geometrične tehnike Razpršeni prikaz (scatterplot) • 2 možnost: Vrednost Zja je ponazorjena z barvo
Geometrične tehnike Razpršeni prikaz (scatterplot) ODLOČITVENO DREVO X>1.6? True False Y>3? Z = a True False Z = c Z = b
Geometrične tehnike Razpršeni prikaz (scatterplot) • Podatki o filmih: • Leto X • Dolžina Y • Popularnost velikost • Žanr barva • Nagrada? oblika
Geometrične tehnike Matrika razpršenih prikazov (scatterplot matrix) • Ideja: prikaz razpršenih prikazov za vse pare atributov • Dobro: • Lepo vidne odvisnosti med atributi • Slabo: • Težave pri večjem številu atributov in veliki količini podatkov
Geometrične tehnike Matrika razpršenih prikazov (scatterplot matrix)
Geometrične tehnike Matrika razpršenih prikazov (scatterplot matrix) • Interakcijska tehnika: Brushing • Uporabnik lahko v enem od prikazov izbere neko podmnožico točk in v ostalih prikazih preveri kam se te točke preslikajo
Geometrične tehnike Mozaični prikaz (mosaic display) • Prikaz kategoričnih podatkov • Primer: Titanik • Težava: pomembna je izbira zaporedja atributov
Geometrične tehnike Projekcijske metode • Težavi: • Visokodimenzionalne podatke podatke težko vizualiziramo • Prekletstvo dimenzionalnosti (Curse of dimensionality) • Ideja: poiščemo “zanimive” 2D projekcije podatkov • Projekcijske metode • PCA – Analiza osnovnih komponent • PP – Projekcijsko iskanje • MDS – Večstopenjsko lestvičenje
Geometrične tehnike Analiza osnovnih komponent (Principal component analysis) • PCA je linearna metoda, ki pri N danih podatkih dimenzije d poišče c (c <=d) ortagonalnih vektorjev, ki najbolje predstavijo dane podatke (zajamejo maksimalno varianco v podatkih oz. minimizirajo srednjo kvadratno napako) • Grobo opisan postopek: • xi = [xi1, xi2,..., xid] ,i=1...N • Naj bo C kovariančna matrika za podatke xi • Uredimo lastne vektorje matrike C po velikosti: 1 >= 2>=...>=N • yi je lastni vektor, ki pripada lastni vrednosti i • Prvih c lastnih vektorjev določa PCA projekcijo dimenzije c
Geometrične tehnike Analiza osnovnih komponent
Geometrične tehnike Projekcijsko iskanje (Projection pursuit) • Večina projekcij podatkov je Gaussovih • Ideja: poiščimo čimbolj ne-Gausovo projekcijo podatkov, ki najbolje ohranja ločenost posameznih razredov • Slabost: težka interpretacija prikaza – osi so linearna kombinacija različnih atributov • (demo) DOBRA PROJEKCIJA SLABA PROJEKCIJA
Geometrične tehnike Večrazsežno lestvičenje (Multidimensional scaling) • Vhod so N-dimenzionalni podatki in matrika različnosti (za vsak par podatkov imamo podano vrednost, koliko se podatka med sabo razlikujeta) • Podatke poskušamo projecirati v dvorazsežni prostor, pri čemer pa poskušamo podatke razporediti na tak način, da se bo evklidska razdalja med posameznimi podatki čim bolje ujemala z različnostjo podatkov • oijje različnost med podatkom i in podatkom j • dijje evklidska razdalja med projekcijo podatka i in podatka j • Optimizacijski problem: minimiziraj vsoto kvadrata napake
Geometrične tehnike Večrazsežno lestvičenje (Multidimensional scaling) • Primer: hkratna pojavitev besed • Razdalja ustreza številu sopojavitev v posameznem članku iz enciklopedije
Geometrične tehnike Paralelni koordinatni sistem (Parallel coordinate system) • Običajni (kartezični) koordinatni sistem • Vse osi so medsebojno ortagonalne • Paralelni koordinatni sistem • Vse osi so si med sabo paralelne • osi so enakomerno razmaknjene
Geometrične tehnike Paralelni koordinatni sistem (Parallel coordinate system) • Primer uporabe: klasifikacija • Različni razredi so obarvani z različnimi barvami
Geometrične tehnike Paralelni koordinatni sistem (Parallel coordinate system) • Paralelni koordinatni sistem omogoča analiziranje geometrije podatkov • Primer uporabe: iskanje korelacij med spremenljivkami
Geometrične tehnike Paralelni koordinatni sistem (Parallel coordinate system) • Prednosti metode • Hkrati prikažemo lahko vse atribute • Vsi atributi so enakovredni • Slabosti metode • Že pri prikazu relativno majhne količine podatkov lahko pride do nepreglednosti (neuporabnosti) • Učinkovitost vizualizacije je odvisna od vrstnega reda atributov • Interaktivna metoda: Brushing (demo)
Metode z ikonami Chernoff faces • Ideja: vrednosti atributov preslikamo na značilke ikon (figur) • Posamezne atribute preslikamo v posamezne značilke obraza • Značilke obraza, ki jih lahko uporabimo • Oblika glave • Oblika oči • Velikost oči • Razdalja med očmi • Naklon trepalnic • Velikost nosu • Vertikalni odmik ust • Širina ust • Odprtost ust • ... • Zakaj?Ljudje imamo velikosposobnost razpoznavanjaobrazov • Slabost: neenakovrednost atributov
Metode z ikonami Chernoff faces • Primer: Rezultati zimskih olimpijskih iger
Metode z ikonami Palične figure (stick figures) • Primerno za večdimenzionalne podatke • Vsakemu atributu pripada en sklep • Vrednost posameznega atributa se preslika v nagib ali dolžino sklepa • Zakaj?Ljudje imamo dobro razvito sposobnost razpoznavanja vzorcev (tekstur) • Slabost: uspešnost vizualizacije je zelo odvisna od izbrane preslikave atributov na sklepe PRIMER IKONE S KATERO LAHKO PRIKAŽEMO 5 ATRIBUTOV
Metode z ikonami Palične figure (stick figures) • Primer: popis prebivalstva • Atributi: • Starost • Dohodek • Spol • Rasa • Status • Rojstna država • Zaposlitev • 2 atributa določata koordinatni osi • Ostali atributi so preslikani v različne naklone sklepov
Hierarhične metode Nalaganje dimenzij (Dimension stacking) • Primerno za kategorične podatke z majhnim številom različnih vrednosti • Razdelimo n dimenzionalni prostor na 2D podprostore, ki jih nato vstavljamo enega v drugega • Primer: • 4 spremenljivke: X, Y, W, Z • Izberemo spremenljivki za zunanji koordinatni osi • Za vsako vrednost izbranih spremenljivk vstavimo 2D prikaz s preostalima spremenljivkama
Hierarhične metode Nalaganje dimenzij (Dimension stacking) • Primer: črpanje nafte • Zunanji osi prikazujeta zemljepisno širino in višino • Notranji osi prikazujeta globino črpanja in kvaliteto nafte zemlj. višina zemlj. širina
Hierarhične metode Svetovi znotraj svetov (Worlds within worlds) • Gnezdenje dimenzij • Na vsakem nivoju prikažemo 3 atribute • Ko uporabnik izbere točko v 3D prostoru se pojavi nov 3D prostor s tremi novimi atributi • Rekurzivno dokler niso določeni vsi atributi • Slabosti: • Prikaz je odvisen od preslikave atributov na koordinatne osi • Uporabnik mora vedeti kaj išče, ker so podatki vizualizirani šele na zadnjem nivoju
Točkovne metode (Pixel oriented methods) Metoda krožnih segmentov (Circle segments technique) • Ideja: Preslikava vsakega podatka v eno barvno točko • Namen: Prikaz ogromne količine podatkov • Primerna za klasifikacijske naloge MNOŽICA PODATKOV ATRIBUTNI SEZNAMI
Točkovne metode (Pixel oriented methods) Metoda krožnih segmentov (Circle segments technique) • Primer: 60 atributov in več kot tisoč učnih podatkov
Točkovne metode (Pixel oriented methods) Metoda rekurzivnih vzorcev (Recursive pattern technique) • Slabost metode krožnih segmentov: zaradi trikotne oblike krožnega izseka je težko primerjati velikosti gruč • Boljši način je prikaz atributov v enako širokih vrsticah
Točkovne metode (Pixel oriented methods) Metoda rekurzivnih vzorcev (Recursive pattern technique) • Primer: Program za interaktivno gradnjo odločitvenih dreves ATRIBUTI 1. NIVO 2. NIVO
Povzetek • Za aktivno udeležbo človeka pri analizi podatkov je vizualizacija nujno potrebna • Vizualizacija pomaga pri odkrivanju zakonitosti v podatkih, pri potrjevanju hipotez ter pri sami prezentaciji podatkov • Obstaja velika izbira različnih metod (predstavil sem samo majhen del teh metod) • Izbira metode je odvisna od namena vizualizacije, tipa podatkov, iskanih značilk, ... • Ne obstaja metoda, ki bi bila uporabna v vseh primerih
Reference • Pak Chung Wong, et al.: 30 years of multidimensional multivariate visualization • Proceedings to Visual Data Mining 2001 • Proceedings to Visual Data Mining 2002 • Mihael Ankers : Visual Data Mining (Ph.D.) • Daniel A. Keim: Visual Techniques for exploring large databases • Inderjit S. Dhillon, et al. : Class Visualization of High-dimensional data with applications • Inderjit S. Dhillon, et al. : Visualizing class structure of multidimensional data • William S. Cleveland : Visualizing data • Aleks Jakulin : Multidimensional Scaling • Dianne Cook : Grand tour and projection pursuit • Heike Hofmann: Graphical methods for categorical data analysis