1 / 58

O dkrivanje zakonitosti iz podatkov

O dkrivanje zakonitosti iz podatkov. doc. Janez Demšar Fakulteta za računalništvo in informatiko Univerza v Ljubljani. vsi planeti (tudi Zemlja) krožijo okrog Sonca. svet je mogoče opisati z matematičnimi formulami. T 2 ~ r 3 (Johannes Kepler). zakon težnosti (Isaac Newton).

alden
Download Presentation

O dkrivanje zakonitosti iz podatkov

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Odkrivanje zakonitosti iz podatkov doc. Janez Demšar Fakulteta za računalništvo in informatikoUniverza v Ljubljani

  2. vsi planeti (tudi Zemlja)krožijo okrog Sonca svet je mogoče opisati zmatematičnimi formulami T 2 ~ r 3(Johannes Kepler) zakon težnosti(Isaac Newton) centrifugalna sila ipd. podatki o legah zvezd(Tycho Brahe)

  3. Dopplerjev efekt deluje tudi na svetlobo posebna relativnostna teorija (Albert Einstein) ni posebnega mesta ali gibanja pomik spektra svetlobe oddaljenih zvezd(Ives, Stilwell)

  4. podatki vzorci, hipoteze teorija Galileo, Newton... spekter svetlobe lege planetov T 2 ~ r 3 Dopplerjev pojav posebna relativnost zakon težnosti • genetika • družboslovje • ... • matematika • fizika • ...

  5. sistemi za podporo odločanju ekspertni sistemi odkrivanje zakonitosti iz podatkov statistika strojnoučenje vizuali-zacija podatki

  6. Načrt predavanja • Kaj je odkrivanje zakonitosti iz podatkov • Kako se ga lotiti, standard CRISP • Priprava podatkov • Vizualizacija • kako risati • kaj risati • Sestavljanje modelov in interaktivno raziskovanje

  7. Soups: Goveja juha Porova juha Gobova juha Sausages: Krvavice Kranjska Pečenica • You all speak Slovenian • You are experienced text miners (an area of DM) Data mining (DM)finding interesting regularities/rules/patterns in the data • Is “zelenjavna juha” a kind of soup or a sausage? • How do you say “soup” in Slovenian language?

  8. Soups: Goveja juha Porova juha Gobova juha Sausages: Krvavice Kranjska Pečenica Data mining (DM)finding interesting regularities/rules/patterns in the data Predictive model • Is “zelenjavna juha” a kind of soup or a sausage? • How do you say “soup” in Slovenian language? Pattern (general knowledge)

  9. Soups: Goveja juha Porova juha Gobova juha Sausages: Krvavice Kranjska Pečenica Data mining (DM)finding interesting regularities/rules/patterns in the data • Foundations of machine learning/data mining • Occam’s razor: we prefer simple rules • Bias: we know what kind of rules to expect • Background knowledge: existing knowledge related to the problem

  10. Kakšna orodja potrebujemo? • Vsi smo naravno nadarjeni iskalci zakonitosti iz podatkov • Še več: naravno nesposobni smo spregledati vzorec • Vendar: • blestimo, ko gre za besedilo in slike, na pa v številkah in simbolih, • klonemo, ko imamo opraviti s prevelikim številom podatkov ali prezapletenimi vzorci torej • potrebujemo orodja, ki nam pomagajo, kjer smo šibki • ne potrebujemo orodij, ki nas zamenjujejo, kjer smo močni • potrebujemo orodja, ki tisto, česar ne obvladamo (številke, velike količine podatkov) spremenijo v to, kar obvladamo (slike, preprosti formalni modeli)

  11. Sodobni pripomočki … • iščejo formalne opise, koristne vizualizacije • preiskujejo ogromen prostor opisov • zmorejo delati z ogromno količino podatkov • so nepristranski, brez subjektivne presoje in osebnih želja

  12. Področja uporabe • Analiza poslovanja, proizvodnje, trga • Analiza poslovnih partnerjev, strank • Predvidevanje izjemnih dogodkov, zlorab • Trženje, odnosi z javnostjo • Znanstvene raziskave • medicina (diagnostika, prognoza, odločanje) • farmacija (učinkovine, načrtovanje zdravil) • genetika (določanje funkcij genov, genskih mrež, farmacija) • ekologija • Številna druga področja • internet (npr. Google...)

  13. Načrt predavanja • Kaj je odkrivanje zakonitosti iz podatkov • Kako se ga lotiti, standard CRISP • Priprava podatkov • Vizualizacija • kako risati • kaj risati • Sestavljanje modelov in interaktivno raziskovanje

  14. Orodja odkrivanje zakonitosti iz podatkov statistika strojnoučenje vizuali-zacija

  15. Glavne značilnosti in razlike • Statistika • matematična disciplina • omejen izbor modelov (po značilnostih, ne po številu!) • zna preveriti vnaprej sestavljene hipoteze, ne zna pa jih sestavljati • šestdeseta: “data fishing” • Strojno učenje • ad hoc (v primerjavi s statistiko) • bolj zapleteni modeli (po izraznosti, ne po razložljivosti ali izpeljavi!) • sestavlja (“išče”) hipoteze, ne zna pa jih preveriti • Vizualizacija • prikazuje podatke v človeku razumljivi obliki • ne sestavlja modelov in jih ne preverja • najpreprostejša, najučinkovitejša in najlažje zavajajoča tehnika

  16. Francoski paradoks Francozi (domnevno) jedo mastnejšo hrano, vendar imajo manj težav s srcem in ožiljem. • Naivni iskalec zakonitosti: jejmo več mastnega! • Razlaga (1992): Francoskih src ne poživlja maščoba, temveč rdeče vino, ki vsebuje resveratrol. • Tudi v to še vedno dvomimo, zato se izvajajo nadaljnji poskusi o biokemičnem delovanju resveratrola. Odkrite zakonitosti morajo biti podprte s teorijo!

  17. Pasti • “If you torture your data long enough, it will eventually confess.” (James L. Mills) • Rešitev • pravilna uporaba statistike (resen problem!) • utemeljevanje modelov s teorijo • “Lahko ti povem biološko razlago za vsak graf, ki mi ga prineseš.” (G. Shaulsky) • jemanje izpeljanega s ščepcem soli

  18. CRISP-DMCRoss Industry Standard Process for Data Mining

  19. Načrt predavanja • Kaj je odkrivanje zakonitosti iz podatkov • Kako se ga lotiti, standard CRISP • Priprava podatkov • Vizualizacija • kako risati • kaj risati • Sestavljanje modelov in interaktivno raziskovanje

  20. Razumevanje problema • Kaj nas pravzaprav zanima? • Kaj so relevantna vprašanja, na katera želimo odgovoriti? • Kakšne odgovore pričakujemo? • Kakšne vrste odgovorov pričakujemo? • Kaj že vemo? • Problemi • Feigenbaumovo ozko grlo: “odkrivanje znanja eksperta” • Zaupnost podatkov

  21. Razumevanje podatkov • Kaj pomenijo posamezni podatki? • Kaj pomenijo posamezne vrednosti? • So podatki točni? • So med seboj povezani? • Kaj pomenijo neznane vrednosti? • Je vzorec relevanten? • So podatki konsistentni – imajo stalno isti pomen? • Če gre za napovedni model: kaj želimo napovedati in iz česa? • Česa ne moremo uporabiti v modelu? Zakaj ne?

  22. Priprava podatkov • Kateri atributi nas zanimajo? • Odstrani atribute, ki niso povezani s problemom • Odstrani atribute, ki jih ni mogoče uporabiti • Odstrani atribute, ki so nezanesljivo merjeni, imajo preveč manjkajočih vrednosti... • Po potrebi odstrani “duplikate” atributov • Moremo “uganiti” neznane in napačne vrednosti? • Namesto neznanih vrednosti vstavimo najverjetnejše vrednosti ali vrednosti napovedani iz drugih vrednosti • Napačne vrednosti lahko odkrijemo vizualno • Kateri primeri nas zanimajo? • Odstrani nerelevantne primere • Odstrani nezanesljive primere (šum, manjkajoče vrednosti) Vedno oblikuj čim objektivnejši kriterij izbiranja pred izbiranjem.

  23. Priprava podatkov (2) • Je mogoče atribute transformirati v priročnejšo obliko? • Poenostavi prezapletene atribute (preveč vrednosti, znane skupine vrednosti...) • Po potrebi spremeni diskretne atribute v zvezne in obratno • Združuj atribute v nove, izpeljane atribute, kadar je to smiselno • Vse našteto – izbor atributov, primerov, predelava atributov – moremo opravljati tudi sproti, če • uporabljeni sistem to omogoča • to moremo početi dovolj objektivno • to ni proti pravilom igre • Sprotno predelovanje podatkov ni le dovoljeno, temveč zaželjeno • Ne le zaželjeno: to je neločljiv del iskanja zakonitosti • kateri atributi so uporabni, kako jih sestaviti, vidimo sproti... • metode določanja nezanesljivih primerov temeljijo na metodah modeliranja, vizualizacije...

  24. Priprava podatkov> Izbira atributov • Statistične mere • Mere nečistoče • Atributi, ki predlaga model • Atributi, ki jih model potrebuje

  25. Priprava podatkov >Izbira atributov Kdo bo vračal kredit? št. let na trenutnemdelovnem mestu nosi očala? subjektivna ocena

  26. Priprava podatkov >Sestavljanje atributov • Sestavljanje s pomočjo znanja področnega eksperta • Statistične metode • Analiza osnovnih komponent (Principle Components Analysis, PCA) • Delni najmanjši kvadrati (Partial Least Squares, PLS) • Metode strojnega učenja • Funkcijska dekompozicija (HINT) • Sestavljanje atributov na osnovi modela

  27. Sistem Orange

  28. Načrt predavanja • Kaj je odkrivanje zakonitosti iz podatkov • Kako se ga lotiti, standard CRISP • Priprava podatkov • Vizualizacija • kako risati • kaj risati • Sestavljanje modelov in interaktivno raziskovanje

  29. Vizualizacija • Kako podatke najboljše narisati? • Uporabljaj orodja, ki imajo veliko različnih vizualizacij • Osnovne vizualizacije: porazdelitve, histogrami, krožni grafikoni, krivulje • Večparameterske vizualizacije: razpršitveni diagrami, RadViz, parketni diagrami, mozaik • Priložnostne vizualizacije: vizualni pripomočki sestavljeni posebej za specifične podatke • Excel nima veliko vizualizacij • Uporabi pravo vizualizacijo za to, kar bi rad pokazal • Bodi ustvarjalen • Ne bodi baročen: razmišljaj, kako narisati čim manj, a povedati čim več • Pazi, da te vizualizacija ne zavede • Ne zavajaj drugih z vizualizacijo • Ne pusti se zavesti vizualizacijam drugih

  30. Vizualizacija

  31. koliko je katerih? • brez nepotrebnih grafičnih elementov (ozadje...) • “razumljive” barve kakšni so deleži (ne)kadilcevv posamezni skupini? kako se razlikujejo deleži(ne)kadilcev po skupinah?

  32. koliko je katerih? kakšni so deleži mladoletnikov, moških in žensk med (ne)kadilci? kako se razlikujejo deležiskupin med kadilci in nekadilci?

  33. Pogosta zgleda grafov, ne povesta ničesar o podatkih(govorita le o svojem avtorju) “Ko mladoletnik postane moški, začne kaditi. Ko se kasneje spremeni v žensko, bo morda nehal.” Še enkrat isto, vendar v treh dimenzijah, tako da vidimo še manj.

  34. kadilci nekadilci Krožni grafikoni so primerni za prikazovanje porazdelitev, manj pa za primerjanje.

  35. Primer, kako z nepotrebno tridimenzionalnostjo napravimo graf manj berljiv

  36. Vizualizacija z Excelom • Ostale vizualizacije v Excelu • vizualizacije z zvezno osjo x • zvezdni grafikoni • večdimenzionalni grafi • ... in kup okraskov pravkar videnega

  37. Primeri slabih grafov (1)

  38. Primeri slabih grafov (2)

  39. Primeri slabih grafov (2) Poudarjaj očitno, da se izogneš bistvenemu...

  40. Primeri slabih grafov (3)

  41. Christies’s Sotheby’s Primeri slabih grafov (3) • Preveč poudarja razlike • Riše s perspektive Christie’s

  42. Morda pa se vpisujejo vedno “revnejši” študenti? Spodnji graf velja za zadnjih 12 let Nihanje med 10. in 14. najboljšo v ZDA, ne med vrhom in sredino Različne letnice! To ni padec, temveč vzpon s 13. na 6. najboljšo! Ni “erratically” pretirano, daspremembe so, pa je normalno? Primeri slabih grafov (4)

  43. sistemi za podporo odločanju ekspertni sistemi odkrivanje zakonitosti iz podatkov statistika strojnoučenje vizuali-zacija podatki

  44. sistemi za podporo odločanju ekspertni sistemi odkrivanje zakonitosti iz podatkov statistika strojnoučenje vizuali-zacija podatki

  45. Najobupnejša prosojnica vseh časov sistemi za podporo odločanju ekspertni sistemi odkrivanje zakonitosti iz podatkov statistika strojnoučenje vizuali-zacija podatki

  46. Vlaki na progi Paris-Lyon

  47. Epidemija kolere

  48. AIDS Poraba alkohola Izvoz igrač Žrtve vojn Uvoz igrač Cene hiš Kako je oblikovan svet?

  49. Teorija vizualizacije • Grafični elementi • Diskretne količine pokažemo z obliko simbolov, barvo, zapolnjenostjo... • Zvezne količine prikažemo z dolžino in položajem • Površina je manj primerna za zvezne količine • Barve so praviloma neprimerne za zvezne količine in jih uporabimo, ko ni potrebna natačnost ali pa ne moremo drugače • Izogibaj se nepotrebnim elementom: • osem, črtam, slikam, ki ne sporočajo ničesar; “chartjunk”: črnilo, ki ne posreduje informacije • navidezna perspektiva le popači sliko • Več • E. R. Tufte: The Visual Display of Quantitative Information • E. R. Tufte: The Cognitive Style of Powerpoint • http://www.edwardtufte.com/tufte/

  50. Vizualizacija podatkov z Orangeom Gap Minder

More Related