1 / 48

O dkrivanje zakonitosti iz podatkov

O dkrivanje zakonitosti iz podatkov. doc. Janez Demšar Laboratorij za umetno inteligenco Fakulteta za računalništvo in informatiko Univerza v Ljubljani. Načrt predavanja. Kaj je odkrivanje zakonitosti iz podatkov Kako se ga lotiti, standard CRISP Razumevanje problema, priprava podatkov

akando
Download Presentation

O dkrivanje zakonitosti iz podatkov

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Odkrivanje zakonitosti iz podatkov doc. Janez Demšar Laboratorij za umetno inteligencoFakulteta za računalništvo in informatikoUniverza v Ljubljani

  2. Načrt predavanja • Kaj je odkrivanje zakonitosti iz podatkov • Kako se ga lotiti, standard CRISP • Razumevanje problema, priprava podatkov • Vizualizacija • kako risati • kaj risati • Sestavljanje modelov in interaktivno raziskovanje

  3. Soups: Goveja juha Porova juha Gobova juha Sausages: Krvavice Kranjska Pečenica • You all speak Slovenian • You are experienced text miners (an area of DM) Data mining (DM)finding interesting regularities/rules/patterns in the data • Is “zelenjavna juha” a kind of soup or a sausage? • How do you say “soup” in Slovenian language?

  4. Soups: Goveja juha Porova juha Gobova juha Sausages: Krvavice Kranjska Pečenica Data mining (DM)finding interesting regularities/rules/patterns in the data Predictive model • Is “zelenjavna juha” a kind of soup or a sausage? • How do you say “soup” in Slovenian language? Pattern (general knowledge)

  5. Kaj je na spodnjih slikah?

  6. Kdaj bo sovražnik napadel?

  7. Kakšna orodja potrebujemo? • Vsi smo naravno nadarjeni iskalci zakonitosti iz podatkov • Še več: naravno nesposobni smo spregledati vzorec • Vendar: • blestimo, ko gre za besedilo in slike, na pa v številkah in simbolih, • klonemo, ko imamo opraviti s prevelikim številom podatkov ali prezapletenimi vzorci torej • potrebujemo orodja, ki nam pomagajo, kjer smo šibki • ne potrebujemo orodij, ki nas zamenjujejo, kjer smo močni • potrebujemo orodja, ki tisto, česar ne obvladamo (številke, velike količine podatkov) spremenijo v to, kar obvladamo (slike, preprosti formalni modeli)

  8. Sodobni pripomočki … • iščejo formalne opise, koristne vizualizacije • preiskujejo ogromen prostor opisov • zmorejo delati z ogromno količino podatkov • so nepristranski, brez subjektivne presoje in osebnih želja

  9. Področja uporabe • Analiza poslovanja, proizvodnje, trga • Analiza poslovnih partnerjev, strank • Predvidevanje izjemnih dogodkov, zlorab • Trženje, odnosi z javnostjo • Znanstvene raziskave • medicina (diagnostika, prognoza, odločanje) • farmacija (učinkovine, načrtovanje zdravil) • genetika (določanje funkcij genov, genskih mrež, farmacija) • ekologija • Številna druga področja • internet (npr. Google...)

  10. Načrt predavanja • Kaj je odkrivanje zakonitosti iz podatkov • Kako se ga lotiti, standard CRISP • Razumevanje problema, priprava podatkov • Vizualizacija • kako risati • kaj risati • Sestavljanje modelov in interaktivno raziskovanje

  11. sistemi za podporo odločanju ekspertni sistemi odkrivanje zakonitosti iz podatkov statistika strojnoučenje vizuali-zacija podatki

  12. Glavne značilnosti in razlike • Statistika • matematična disciplina • omejen izbor modelov (po značilnostih, ne po številu!) • zna preveriti vnaprej sestavljene hipoteze, ne zna pa jih sestavljati • šestdeseta: “data fishing” • Strojno učenje • ad hoc (v primerjavi s statistiko) • bolj zapleteni modeli (po izraznosti, ne po razložljivosti ali izpeljavi!) • sestavlja (“išče”) hipoteze, ne zna pa jih preveriti • Vizualizacija • prikazuje podatke v človeku razumljivi obliki • ne sestavlja modelov in jih ne preverja • najpreprostejša, najučinkovitejša in najlažje zavajajoča tehnika

  13. Kaj je na sliki? “The researchers found that when people were primed to feel out of control, they were more likely to see patterns where none exist.” (See a Pattern on Wall Street?, John Tierney, po Science)

  14. CRISP-DMCRoss Industry Standard Process for Data Mining

  15. Načrt predavanja • Kaj je odkrivanje zakonitosti iz podatkov • Kako se ga lotiti, standard CRISP • Razumevanje problema, priprava podatkov • Vizualizacija • kako risati • kaj risati • Sestavljanje modelov in interaktivno raziskovanje

  16. Razumevanje problema • Kaj nas pravzaprav zanima? • Kaj so relevantna vprašanja, na katera želimo odgovoriti? • Kakšne odgovore pričakujemo? • Kakšne vrste odgovorov pričakujemo? • Kaj že vemo? • Problemi • Feigenbaumovo ozko grlo: “odkrivanje znanja eksperta” • Zaupnost podatkov

  17. Razumevanje podatkov • Kaj pomenijo posamezni podatki? • Kaj pomenijo posamezne vrednosti? • So podatki točni? • So med seboj povezani? • Kaj pomenijo neznane vrednosti? • Je vzorec relevanten? • So podatki konsistentni – imajo stalno isti pomen? • Če gre za napovedni model: kaj želimo napovedati in iz česa? • Česa ne moremo uporabiti v modelu? Zakaj ne?

  18. Priprava podatkov • Kateri atributi nas zanimajo? • Odstrani atribute, ki niso povezani s problemom • Odstrani atribute, ki jih ni mogoče uporabiti • Odstrani atribute, ki so nezanesljivo merjeni, imajo preveč manjkajočih vrednosti... • Po potrebi odstrani “duplikate” atributov • Moremo “uganiti” neznane in napačne vrednosti? • Namesto neznanih vrednosti vstavimo najverjetnejše vrednosti ali vrednosti napovedani iz drugih vrednosti • Napačne vrednosti lahko odkrijemo vizualno • Kateri primeri nas zanimajo? • Odstrani nerelevantne primere • Odstrani nezanesljive primere (šum, manjkajoče vrednosti) Vedno oblikuj čim objektivnejši kriterij izbiranja pred izbiranjem.

  19. Priprava podatkov (2) • Je mogoče atribute transformirati v priročnejšo obliko? • Poenostavi prezapletene atribute (preveč vrednosti, znane skupine vrednosti...) • Po potrebi spremeni diskretne atribute v zvezne in obratno • Združuj atribute v nove, izpeljane atribute, kadar je to smiselno • Vse našteto – izbor atributov, primerov, predelava atributov – moremo opravljati tudi sproti, če • uporabljeni sistem to omogoča • to moremo početi dovolj objektivno • to ni proti pravilom igre • Sprotno predelovanje podatkov ni le dovoljeno, temveč zaželjeno • Ne le zaželjeno: to je neločljiv del iskanja zakonitosti • kateri atributi so uporabni, kako jih sestaviti, vidimo sproti... • metode določanja nezanesljivih primerov temeljijo na metodah modeliranja, vizualizacije...

  20. Načrt predavanja • Kaj je odkrivanje zakonitosti iz podatkov • Kako se ga lotiti, standard CRISP • Razumevanje problema, priprava podatkov • Vizualizacija • kako risati • kaj risati • Sestavljanje modelov in interaktivno raziskovanje

  21. Vizualizacija • Kako podatke najboljše narisati? • Uporabljaj orodja, ki imajo veliko različnih vizualizacij • Osnovne vizualizacije: porazdelitve, histogrami, krožni grafikoni, krivulje • Večparameterske vizualizacije: razpršitveni diagrami, RadViz, parketni diagrami, mozaik • Priložnostne vizualizacije: vizualni pripomočki sestavljeni posebej za specifične podatke • Excel nima veliko vizualizacij • Uporabi pravo vizualizacijo za to, kar bi rad pokazal • Bodi ustvarjalen • Ne bodi baročen: razmišljaj, kako narisati čim manj, a povedati čim več • Pazi, da te vizualizacija ne zavede • Ne zavajaj drugih z vizualizacijo • Ne pusti se zavesti vizualizacijam drugih

  22. Vizualizacija

  23. koliko je katerih? • brez nepotrebnih grafičnih elementov (ozadje...) • “razumljive” barve kakšni so deleži (ne)kadilcevv posamezni skupini? kako se razlikujejo deleži(ne)kadilcev po skupinah?

  24. koliko je katerih? kakšni so deleži mladoletnikov, moških in žensk med (ne)kadilci? kako se razlikujejo deležiskupin med kadilci in nekadilci?

  25. Pogosta zgleda grafov, ne povesta ničesar o podatkih(govorita le o svojem avtorju) “Ko mladoletnik postane moški, začne kaditi. Ko se kasneje spremeni v žensko, bo morda nehal.” Še enkrat isto, vendar v treh dimenzijah, tako da vidimo še manj.

  26. kadilci nekadilci Krožni grafikoni so primerni za prikazovanje porazdelitev, manj pa za primerjanje.

  27. Primer, kako z nepotrebno tridimenzionalnostjo napravimo graf manj berljiv

  28. Vizualizacija z Excelom • Ostale vizualizacije v Excelu • vizualizacije z zvezno osjo x • zvezdni grafikoni • večdimenzionalni grafi • ... in kup okraskov pravkar videnega

  29. Primeri slabih grafov (1)

  30. Primeri slabih grafov (2)

  31. Primeri slabih grafov (2) Poudarjaj očitno, da se izogneš bistvenemu...

  32. Primeri slabih grafov (3)

  33. Christies’s Sotheby’s Primeri slabih grafov (3) • Preveč poudarja razlike • Riše s perspektive Christie’s

  34. Morda pa se vpisujejo vedno “revnejši” študenti? Spodnji graf velja za zadnjih 12 let Nihanje med 10. in 14. najboljšo v ZDA, ne med vrhom in sredino Različne letnice! To ni padec, temveč vzpon s 13. na 6. najboljšo! Ni “erratically” pretirano, daspremembe so, pa je normalno? Primeri slabih grafov (4)

  35. V poprečju?Zakaj primerjati poprečne delavce z dvajsetimi najboljše plačanimi “menedžerji”? Sečišče, ki ga ni! 8500000/35500 = 239 Primeri slabih grafov (5)

  36. Vlaki na progi Paris-Lyon

  37. Epidemija kolere

  38. AIDS Poraba alkohola Izvoz igrač Žrtve vojn Uvoz igrač Cene hiš Kako je oblikovan svet?

  39. Teorija vizualizacije • Grafični elementi • Diskretne količine pokažemo z obliko simbolov, barvo, zapolnjenostjo... • Zvezne količine prikažemo z dolžino in položajem • Površina je manj primerna za zvezne količine • Barve so praviloma neprimerne za zvezne količine in jih uporabimo, ko ni potrebna natačnost ali pa ne moremo drugače • Izogibaj se nepotrebnim elementom: • osem, črtam, slikam, ki ne sporočajo ničesar; “chartjunk”: črnilo, ki ne posreduje informacije • navidezna perspektiva le popači sliko • Več • E. R. Tufte: The Visual Display of Quantitative Information • E. R. Tufte: The Cognitive Style of Powerpoint • http://www.edwardtufte.com/tufte/

  40. Načrt predavanja • Kaj je odkrivanje zakonitosti iz podatkov • Kako se ga lotiti, standard CRISP • Razumevanje problema, priprava podatkov • Vizualizacija • kako risati • kaj risati • Sestavljanje modelov in interaktivno raziskovanje

  41. Računsko modeliranje,iskanje vzorcev • Katere metode modeliranja so primerne za naš problem? • Katera metoda more delati z našimi podatki? • Katera je teoretično najprimernejša? • Katera metoda da najbolj natančen model? • Kateri modeli bodo najrazumljivejši uporabniku? • Katere modele bo najlažje uporabljati?

  42. Osnovne statistične metode srednja vrednost, mediana, modus porazdelitve, korelacije Napovedovanje (nadzorovano učenje, regresija) statistične/verjetnostne metode linearna in logistična regresija naivni Bayesov klasifikator subsimbolične metode metoda najbližjih sosedov nevronske mreže metoda podpornih vektorjev simbolične metode klasifikacijska in regresijska drevesa odločitvena pravila Iskanje vzorcev razvrščanje v skupine (clustering) iskanje povezav (asociativna pravila) analiz mrež kombinacije vizualizacije in učenja FreeViz, VizRank, MDS Modeliranje

  43. Sistemi zaodkrivanje zakonitosti iz podatkov • Komercialni sistemi • Zelo dragi, dobra uporabniška podpora • Najbolj znani • SPSS: Clementine • SAS Institute: SAS Enterprise Miner • Prosto dostopni • Zastonj, a z manj podpore (razen uporabnikov med sabo) • Ker izvirajo iz raziskovalnih okolij, so pogosto inovativnejši • Največja • Weka, University of Waikato • osredotočen na strojno učenje • velika skupnost uporabnikov • Orange, Fakulteta za računalništvo in informatiko, Ljubljana • več metod za odkrivanje zakonitosti iz podatkov, predvsem vizualizacije • hiter • inovativen in zmogljiv uporabniški vmesnik, dobra dokumentacija za skriptni nivo • uporabniški vmesnik in podpora v slovenščini 

  44. Točnost modela Kateri vidik točnosti nas pravzaprav zanima? Klasifikacijska točnost Kalibracija verjetnosti Senzitivnost, specifičnost, ... ROC (TPR vs. FPR) Krivulja dviga (TP vs. P) Uporabnost modela Je model uporaben v praksi? Je za to dovolj natančen, preprost? Napoveduje, kar potrebujemo, s tistim, kar imamo? Smiselnost modela Je model skladen s prej znanimi dejstvi in zakonitostmi? Če ni: zakaj ne? Napačni podatki Napačna interpretacija modela Napačna “znana dejstva in zakonitosti” Pogoste mere true positive (TP) true negative (TN) false positive (FP) false negative (FN) true positive rate (TPR) (hit rate, recall, sensitivity) TPR = TP / P = TP / (TP + FN) false positive rate (FPR) (false alarm rate, fall-out) FPR = FP / N = FP / (FP + TN) accuracy (ACC) specificity (SPC) SPC = TN / (FP + TN) = 1 − FPR positive predictive value (PPV) (precision) PPV = TP / (TP + FP) negative predictive value (NPV) NPV = TN / (TN + FN) false discovery rate (FDR) FDR = FP / (FP + TP) Ocenjevanje modelov

  45. Uporaba modelov • V kakšni obliki pripraviti model za rabo? • Ekspertni sistem, sistem za podporo odločanju • Sistem za “ročno” napovedovanje • Članek, poročilo...

  46. Literatura in povezave Splošno • Skripta s sorodnega predavanja:http://eprints.fri.uni-lj.si/archive/00000198/ • Standard CRISP:http://www.crisp-dm.org/ Vizualizacija • O estetiki in korektnosti vizualizacij • E. R. Tufte: The Visual Display of Quantitative Information • Domača stran:http://www.edwardtufte.com/tufte/ • Zanimive vizualizacije • Gapminderhttp://www.ted.com/index.php/talks/view/id/92http://tools.google.com/gapminder/ • Kako je videti svet http://www.dailymail.co.uk/pages/live/articles/news/worldnews.html?in_article_id=439315&in_page_id=1811 • Zbirka zanimivih vizualizacijhttp://infosthetics.com/archives/infovis/

  47. Literatura in povezave (2) Programi • Orange – strojno učenje, vizualizacija, interaktivnost www.ailab.si/orange • Knime – podobno kot Orangehttp://www.knime.org/ • Weka – poudarek na strojnem učenju, težja uporaba, manj interaktivno http://www.cs.waikato.ac.nz/ml/weka/ • GGobi – znan vizualizacijski paket, navezan na statistični paket R: http://www.ggobi.org/

More Related