1 / 38

Vizuális adatanalízis

Vizuális adatanalízis. Exploratoratory data analysis (EDA). Cél Adatok megértése Mi jó, mi nem? Melyek a minőségileg eltérő csoportok? Mik a fontos jellemzők? Jelenségek megsejtése Korrelációkeresés (mi okoz mit?) Minőségileg eltérő tartományok Precíz statisztikai módszerek kiválasztása.

lefty
Download Presentation

Vizuális adatanalízis

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Vizuális adatanalízis

  2. Exploratoratory data analysis (EDA) • Cél • Adatok megértése • Mi jó, mi nem? • Melyek a minőségileg eltérő csoportok? • Mik a fontos jellemzők? • Jelenségek megsejtése • Korrelációkeresés (mi okoz mit?) • Minőségileg eltérő tartományok • Precíz statisztikai módszerek kiválasztása

  3. Statisztikai analízis módszerek • Vizualizálás • Statisztikai nehéztüzérség nélkül • Tukey, 60-as évek közepe • Robusztus statisztika • Csökkentjen az érzéekenység a mérési hibára • Nemparametrikus statisztika • Ne kelljen az ismeretlen eloszlásra feltételezéseket tenni • http://www.visual-analytics.eu/ • http://www.rosuda.org/mondrian/

  4. Egyedi változók

  5. Egy kis példa: OHV CSV és rövid nevek

  6. Nehéz értelmezni...

  7. Oszlopdiagram (bar chart) • Megjelenített dimenziók száma: 1 • Ábrázolt összefügg.: • Diszkrét változó egyesértékeinek abszolút gyakorisága • Adategység: • Oszlop – az oszlop magassága az adott érték absz. gyakoriságáttükrözi • Tervezői döntés: • Csoportok kialakítása? • Értékkészlet darabolása?

  8. Hisztogram Nők és férfiak magasságának eloszlása is szép haranggörbe • Megjelenített dim.k: 1 • Ábrázolt összefügg.: • folytonos változó eloszlása • Adategység: • Oszlop – az oszlop magassága az adott érték absz. gyakoriságát tükrözi • Tervezői döntés: • Oszlopok szélessége? Fontos percentilisek?

  9. Doboz diagram (boxplot) • Megjelenített dim.k: 1 • 5 értékkel jellemzésként • Ábrázolt összefügg.: • folytonos változó fontos percentilisei • Adategység: • Doboz – szélei jelzik az alsó és felső kvartiliseket, • Középen a medián. • A minimum és a maximum általában még pontosan jelezve, • Outlierek már csak pöttyökkel.

  10. Boxplot Interquartile range

  11. Két változó Cél: tartományok, összefüggések keresése

  12. Pont – pont diagram (scatterplot) • Megjelenített dim.k: 2 • Ábrázolt összefügg.: • folytonos változók együttes eloszlása • Adategység: • pont – előfordulás • Korlát: • ha az egyik változó értéke hiányzik nem tudjuk felrajzolni • Tervezői döntés: • Overplotting?

  13. Hol volt, hol nem volt...

  14. Szétszórjuk

  15. A pontok....

  16. És megpróbáljuk közelíteni...

  17. Regresszió f függvény, • bemenet: az attribútumok értéke, • kimenet: megfigyelések legjobb közelítése • „ökölszabály” • Példa: testtömeg/magasság együttes eloszlás valójában egyenesreilleszthető,

  18. Regressziós módszerek • Alapelv: Véletlen változó Hiba Közelítés Jósolt esemény Megfigyelhető változók • Átlagos hiba (mean error) Becsült érték Mért érték

  19. Lineáris regresszió • Egyszerű lin. függvény illesztése az adatokra • nem vár alapvető változást a rendszer viselkedésében • Legkisebb négyzetek módszere • keressük azokat az a,b paramétereket, amelyekre • cél: minimális (Sum of Squared Errors) minimalizálása

  20. Levezetés (parc. deriválás) Xi, Yi a mért értékpárok (pl. idő, terhelés)

  21. Lineáris regresszió • Legjobban illeszkedő egyenes • , ahol • DE:Anscombe’squartet • Minőségilegkülönbözőadatok • Azonos regressziósegyenes

  22. Loess görbe (Locally weighted polynomial regression) • Pont környezetében polinomiális közelítések összefűzve • Tipikusan 1 vagy 2 fokú • Környezet • Fix intervallum (span) • Fix darabszám • Nagy adatkészlet • Outlier érzékenység • Nem ad zárt alakot

  23. Simító görbe • Egy adott osztályból legjobban közelítő függvény • simító paraméter • Adat követése • Simaság • =0 esetén interpolációs görbe • esetében lineáris regresszió

  24. Regresszió • Cél: • megtalálni egy olyan f függvényt, amelynek inputja az attribútumok értéke, az outputja pedig a lehető legjobban közelíti (négyzetes hibaérték) a valóságot • Példa: • testtömeg/magasság együttes eloszlás valójában egyenesreilleszthető, • web forgalom jóslása

  25. Scatterplot mátrix • Megjelenített dim.k: n • Ábrázolt összefügg.: • A változópárok együttes eloszlása • Adategység: • Scatterplot – minden diagram a neki megfelelő változók együttes eloszlását mutatja be

  26. Mozaik diagram (mosaicplot) • Megjelenített dim.k: 2 • Ábrázolt összefügg.: • két diszkrét változó együttes eloszlása • Adategység: • Téglalap – a téglalap területe arányos az (X = xi, Y = yi) értékpárok gyakoriságával • Korlát: • Sorfolytonos olvasása nehézkes A túlsúlyosak nagy része férfi!

  27. Hőtérkép (heat map) • Megjelenített dim.k: 3 • Ábrázolt összefügg.: • sűrű 3D struktúrák összefüggései • Adategység: • tile – azonos „magasságú” összefüggő területrész • Tervezői döntés: • tile-ok mérete? Színekkel kommunikál: Pl. nincs senki, aki kétméteres lenne és 25 kiló, de sok 1.60-as van 60 kiló környékén

  28. Párhuzamos koordináták • Megjelenített dim.k: n • Ábrázolt összefügg.: • Rekordok/attribútumok hasonlósága • Adategység: • Törött vonal – az egyes attribútumtengelyeken felvett értékek rendezett sorozata • Korlátok: • Tengelyek (attribútumok) más mértékegysége/nagyságrendje stb. torzíthat … de a fogyasztás nagyobb Az új autókban a tömeg kisebb…

  29. Buborék diagram (bubblechart) • Megjelenített dim.k: 3 • Ábrázolt összefügg.: • ritka 3D struktúrák összefüggései • Adategység: • körlap – 3 attribútummal leírható: X és Y koordináta a középpontra + sugár • Korlátok • overplotting torzíthat (ha a ritka struktúrában vannak sűrű részek) A Lotushoz tartozik a legkönnyebb Az X, Y pozíciót a fogyasztás és a teljesítmény adja, a kör sugara a tömeget mutatja

  30. qqplot

  31. Data transformation: Box-Cox

  32. Osztályozás • Cél: • adott teszthalmaz meglétét feltételezve egy újonnan érkező elemről eldönteni, melyik osztályba tartozik (az osztályok száma és a tesztrekordok osztályba tartozása rögzített) • Példa: • SPAM detektálás tartalom alapján, • testtömeg/magasság alapján alany nemének meghatározása

  33. Klaszterezés • Cél: • egy halmaz elemeit csoportokba sorolni úgy, hogy az egymáshoz "közel" lévő elemek egymáshoz "hasonlóak" • Példa: • ajánló rendszerek R csomagokról, • szenátusi tagok klaszterezéseszavazatuk alapján

  34. PCA • Cél: • megtalálni a rekordot legjobban jellemző faktorokat • Példa: • Tőzsdei árfolyamok közülmelyek határozzák meglegjobban a BUX indexalakulását?

More Related