190 likes | 386 Views
Zpracování informací a znalostí Cíle a základní metody dobývání znalostí z databází. Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství. Dobývání znalostí z databází - Literatura.
E N D
Zpracování informací a znalostí Cíle a základní metody dobývání znalostí z databází Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství
Dobývání znalostí z databází - Literatura Jan Rauch: Systém LISp-Miner. Studijní materiál pro posluchače kurzů Metod zpracování informací, 2005, viz soubor LM_SKRPT.pdf http://lispminer.vse.cz/ Petr Berka: Dobývání znalostí z databází ACADEMIA 2003, 366 stran (pro zájemce o hlubší studium) http://kdnuggets.com (pro zájemce o hlubší studium)
Dobývání znalostí z databází • Úvod • Úlohy a metody • Metodologie CRISP • Rozhodovací stromy • Asociační pravidla (viz též otázka 9) • Metoda GUHA (viz též otázka 9)
Úvod – příčiny vzniku DZD • Zjištění, že lze získat z uchovávaných dat více než proč byly ukládány • Potřeba předpovídat budoucí trendy a chování • Obavy ze ztráty konkurenceschopnosti • Snaha o získání konkurenčních výhod • …
Úvod – hlavní zdroje pro DZD Statistika • kontingenční tabulky • regresní analýza • diskriminační analýza • shluková analýza • … DZD Databáze Strojové učení • relační databáze • datové sklady • OLAP • … • rozhodovací stromy • neuronové sítě • ...
Úvod – současný stav • široce aplikováno • desítky firem nabízejí software a služby • výuka na vysokých školách • rozsáhlý výzkum • rozvoj nových směrů (text mining, relational data mining, complex data mining, web mining, … ) • integrace s jinými disciplinami (např. se znalostním inženýrstvím) • řada mezinárodních konferencí • http://kdnuggets.com • …
Dobývání znalostí z databází • Úvod • Úlohy a metody • Metodologie CRISP • Rozhodovací stromy • Asociační pravidla (viz též otázka 9) • Metoda GUHA (viz též otázka 9)
DZD – základní typy úloh • klasifikace / predikce • po naučení na trénovací množině chceme zařazení (ohodnocení) neznámých objektů • deskripce • chceme získat popis vlastností množiny objektů jako celku • hledání „nugetů“ • chceme zjistit zajímavosti, výjimky od normálu
DZD – příklady úloh • rozpoznání problémových nebo vysoce bonitních klientů banky • analýza klientů pojišťovny • analýza nákupních košíků • predikce spotřeby elektřiny (vody, plynu) • analýza poruchovosti automobilů • analýza dat o pacientech • analýza příčin změny mobilních operátorů • analýza chování zákazníků internetových obchodů (clickstreamy) • text mining • …
DZD – vybrané metody • Asociační pravidla (viz též otázka 9) • Klasifikace / predikce • Rozhodovací stromy • Rozhodovací pravidla • Neuronové sítě • Statistické metody • Kontingenční tabulky • Regresní analýza • Diskriminační analýza • Shluková analýza (viz též otázka 4) • … • GUHA (viz též otázka 9) • …
Dobývání znalostí z databází • Úvod • Úlohy a metody • Metodologie CRISP • Rozhodovací stromy • Asociační pravidla (viz též otázka 9) • Metoda GUHA (viz též otázka 9)
CRoss Industry Standard Process for Data Mining http://www.crisp-dm.org/ CRISP-DM
Dobývání znalostí z databází • Úvod • Úlohy a metody • Metodologie CRISP • Rozhodovací stromy • Příklad rozhodovacího stromu • Obecný algoritmus pro tvorbu rozhodovacích stromů • Asociační pravidla (viz též otázka 9) • Metoda GUHA (viz též otázka 9)
Příklad rozhodovacího stromu (1) Dáno: známá data • Úloha: • dán nový, neznámý klient • půjčit nebo nepůjčit?
Příklad rozhodovacího stromu (2) Způsob řešení Daná (trénovací) data Proces učení Vhodná forma znalosti Nový, neznámý klient úvěr: ano/ne
Příklad rozhodovacího stromu (3) Způsob řešení Vhodná forma znalosti – rozhodovací strom: Daná (trénovací) data příjem nízký vysoký ano konto nízké vysoké střední ne ano nezaměstnaný ano ne ne ano
Příklad rozhodovacího stromu (4) • Nový klient • příjem: nízký • konto: střední • nezaměstnaný: ne • Půjčit: ? Aplikace rozhodovacího stromu: Ano!
Příklad rozhodovacího stromu (5) • Nový klient • příjem: nízký • konto: nízké • Půjčit: ? Aplikace rozhodovacího stromu: Ne!
Obecný algoritmus pro tvorbu rozhodovacích stromů Dáno:trénovací data Výstup: rozhodovací strom • Algoritmus TDIDT • Zvol jeden atribut jako kořen dílčího stromu • Rozděl data v tomto uzlu na podmnožiny podle hodnot zvoleného atributu a přidej uzel pro každou podmnožinu • Existuje-li uzel, pro který nepatří všechna data do téže třídy, opakuj pro tento uzel postup od bodu 1., jinak skonči • TDIDT = Top down induction of decision tree • metoda „rozděl a panuj“ • využití teorie informace a pravděpodobnosti