1 / 19

Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství

Zpracování informací a znalostí Cíle a základní metody dobývání znalostí z databází. Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství. Dobývání znalostí z databází - Literatura.

kevina
Download Presentation

Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Zpracování informací a znalostí Cíle a základní metody dobývání znalostí z databází Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství

  2. Dobývání znalostí z databází - Literatura Jan Rauch: Systém LISp-Miner. Studijní materiál pro posluchače kurzů Metod zpracování informací, 2005, viz soubor LM_SKRPT.pdf http://lispminer.vse.cz/ Petr Berka: Dobývání znalostí z databází ACADEMIA 2003, 366 stran (pro zájemce o hlubší studium) http://kdnuggets.com (pro zájemce o hlubší studium)

  3. Dobývání znalostí z databází • Úvod • Úlohy a metody • Metodologie CRISP • Rozhodovací stromy • Asociační pravidla (viz též otázka 9) • Metoda GUHA (viz též otázka 9)

  4. Úvod – příčiny vzniku DZD • Zjištění, že lze získat z uchovávaných dat více než proč byly ukládány • Potřeba předpovídat budoucí trendy a chování • Obavy ze ztráty konkurenceschopnosti • Snaha o získání konkurenčních výhod • …

  5. Úvod – hlavní zdroje pro DZD Statistika • kontingenční tabulky • regresní analýza • diskriminační analýza • shluková analýza • … DZD Databáze Strojové učení • relační databáze • datové sklady • OLAP • … • rozhodovací stromy • neuronové sítě • ...

  6. Úvod – současný stav • široce aplikováno • desítky firem nabízejí software a služby • výuka na vysokých školách • rozsáhlý výzkum • rozvoj nových směrů (text mining, relational data mining, complex data mining, web mining, … ) • integrace s jinými disciplinami (např. se znalostním inženýrstvím) • řada mezinárodních konferencí • http://kdnuggets.com • …

  7. Dobývání znalostí z databází • Úvod • Úlohy a metody • Metodologie CRISP • Rozhodovací stromy • Asociační pravidla (viz též otázka 9) • Metoda GUHA (viz též otázka 9)

  8. DZD – základní typy úloh • klasifikace / predikce • po naučení na trénovací množině chceme zařazení (ohodnocení) neznámých objektů • deskripce • chceme získat popis vlastností množiny objektů jako celku • hledání „nugetů“ • chceme zjistit zajímavosti, výjimky od normálu

  9. DZD – příklady úloh • rozpoznání problémových nebo vysoce bonitních klientů banky • analýza klientů pojišťovny • analýza nákupních košíků • predikce spotřeby elektřiny (vody, plynu) • analýza poruchovosti automobilů • analýza dat o pacientech • analýza příčin změny mobilních operátorů • analýza chování zákazníků internetových obchodů (clickstreamy) • text mining • …

  10. DZD – vybrané metody • Asociační pravidla (viz též otázka 9) • Klasifikace / predikce • Rozhodovací stromy • Rozhodovací pravidla • Neuronové sítě • Statistické metody • Kontingenční tabulky • Regresní analýza • Diskriminační analýza • Shluková analýza (viz též otázka 4) • … • GUHA (viz též otázka 9) • …

  11. Dobývání znalostí z databází • Úvod • Úlohy a metody • Metodologie CRISP • Rozhodovací stromy • Asociační pravidla (viz též otázka 9) • Metoda GUHA (viz též otázka 9)

  12. CRoss Industry Standard Process for Data Mining http://www.crisp-dm.org/ CRISP-DM

  13. Dobývání znalostí z databází • Úvod • Úlohy a metody • Metodologie CRISP • Rozhodovací stromy • Příklad rozhodovacího stromu • Obecný algoritmus pro tvorbu rozhodovacích stromů • Asociační pravidla (viz též otázka 9) • Metoda GUHA (viz též otázka 9)

  14. Příklad rozhodovacího stromu (1) Dáno: známá data • Úloha: • dán nový, neznámý klient • půjčit nebo nepůjčit?

  15. Příklad rozhodovacího stromu (2) Způsob řešení Daná (trénovací) data Proces učení Vhodná forma znalosti Nový, neznámý klient úvěr: ano/ne

  16. Příklad rozhodovacího stromu (3) Způsob řešení Vhodná forma znalosti – rozhodovací strom: Daná (trénovací) data příjem nízký vysoký ano konto nízké vysoké střední ne ano nezaměstnaný ano ne ne ano

  17. Příklad rozhodovacího stromu (4) • Nový klient • příjem: nízký • konto: střední • nezaměstnaný: ne • Půjčit: ? Aplikace rozhodovacího stromu: Ano!

  18. Příklad rozhodovacího stromu (5) • Nový klient • příjem: nízký • konto: nízké • Půjčit: ? Aplikace rozhodovacího stromu: Ne!

  19. Obecný algoritmus pro tvorbu rozhodovacích stromů Dáno:trénovací data Výstup: rozhodovací strom • Algoritmus TDIDT • Zvol jeden atribut jako kořen dílčího stromu • Rozděl data v tomto uzlu na podmnožiny podle hodnot zvoleného atributu a přidej uzel pro každou podmnožinu • Existuje-li uzel, pro který nepatří všechna data do téže třídy, opakuj pro tento uzel postup od bodu 1., jinak skonči • TDIDT = Top down induction of decision tree • metoda „rozděl a panuj“ • využití teorie informace a pravděpodobnosti

More Related