1 / 48

LISP Miner a 3. úkol

LISP Miner a 3. úkol. 4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch. Osnova cvičení. Seznámení se zadáním 3. úkolu Analýza nákupního košíku a asociační pravidla Teoretické pozadí procedury ASSOC Seznámení s nástrojem LISP Miner

oren
Download Presentation

LISP Miner a 3. úkol

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. LISP Miner a 3. úkol 4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch

  2. Osnova cvičení • Seznámení se zadáním 3. úkolu • Analýza nákupního košíku a asociační pravidla • Teoretické pozadí procedury ASSOC • Seznámení s nástrojem LISP Miner • Demonstrace funkcionality nástroje na vzorových datech • Detailní postup pro 3. úkol

  3. Stručné zadání 3. úkolu • Seznámení se s nástrojem LISP Miner • Vyřešení analytické otázky zadané jednotlivým týmům • Navázání datového zdroje • Příprava dat • Použití procedury ASSOC (Fundovaná implikace, Nadprůměrné souvisení) • Nalezení rozumného počtu hypotéz (max 30 – 50) • Interpretace hypotéz s využitím dodatečných znalostí • Vypracování analytické zprávy v systému Sewebar • Vypracování zprávy pro lékaře v systému Sewebar

  4. Užitečné i nezbytné zdroje • Tutoriály na LISP Miner: http://lispminer.vse.cz/tutorial • LM_SKRIPT_11.pdf = RAUCH, J. Systém LISp-Miner: Stručný popis určený pro posluchače kurzu Zpracování informací a znalostí. Praha: VŠE, 2011. = Popis systému a procedury ASSOC • LMDataSource_0409.pdf = popis komponenty LM Data Source pro přípravu dat • Adamek_pro_KIZI_0411.pdf = RAUCH, J., TOMEČKOVÁ, M. Adámek – popis dat (verse VI) = popis datového souboru použitého pro 3. úkol • Adamek_4IZ210_11_12_zima_ZADANI.pdf = podrobné zadání úlohy • 4ft-Miner_Cedenty_1111.pdf = Procedura 4ft-Miner – zadání množiny relevantních pravidel • Adamek_Data.zip = data k zadání • http://lispminer.vse.cz/tutorial/t6.html= export do SEWEBARu

  5. Co je to analytická otázka? • klient(?) <=> kvalita(špatná) / typ(?) ... pro jaké parametry klienta a typy půjčky platí, že příslušnost klienta k segmentu je téměř totéž jako mít špatnou půjčku příslušného typu • klient(?) =>* kvalita(špatná)... pro jaké parametry klienta platí, že vedou ke špatné půjčce

  6. Asociační pravidla • Pojem asociační pravidlo zaveden Agrawalem • V metodě GUHA se používal pojem hypotéza • 4ft = implementace procedury ASSOC metody GUHA automatického vytváření hypotéz • Lisp Miner = nástroj vyvíjený na KIZI

  7. Přehled základních pojmů Kvantifikátor vztahu ≈ / Antecedent Succedent Condition Cedenty dílčí cedenty (atributy) spojené konjunkcí literály (hodnoty atributů) spojené konjunkcí nebo disjunkcí

  8. Příklad přidělení analytických otázek jednotlivým týmům Zdroj: Adamek_4IZ210_...pdf

  9. Úkol číslo 4: DZD – skupiny atributů Zdroj: Adamek_4IZ210_...pdf

  10. Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat

  11. Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat

  12. LISP Miner - instalace Stáhněte si z webu http://lispminer.vse.cz/download tyto soubory: • http://lispminer.vse.cz/files/exe/LM.4ft.zip = základní modul LM pro proc 4FT • http://lispminer.vse.cz/files/exe/LM.Sewebar.zip = modul pro Sewebar • http://lispminer.vse.cz/files/exe/ws.export.zip = webová služba pro export • http://lispminer.vse.cz/files/exe/Barbora.zip = Vzorová data o loanech

  13. LISP Miner - instalace

  14. LISP Miner – vytvoření datového zdroje pomocí LMAdmin

  15. Otevření nastavení úlohy s možností přegenerování hypotéz Spuštění modulu pro definici dat Přidání nové analýzy Spuštění modulu pro zobrazení výsledků (pro označenou úlohu)

  16. Vytvoření kategoriálního atributu – krok 1

  17. Vytvoření kategoriálního atributu – krok 2 Primary Key nastaví primární klíč!!!!!! Bez něj do nepůjde

  18. Vytvoření kategoriálního atributu – krok 3

  19. Vytvoření numerického spojitého atributu Tab. 3 Adamek_pro_KIZI_0310.pdf

  20. Typy intervalů • Ekvidistantní intervaly = intervaly shodné délky • Ekvifrekvenční intervaly = intervaly se zhruba shodným počtem četností

  21. Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat

  22. Pohled na vytvořené intervaly

  23. Vytvoření skupin atributů pomocí Treeofatrib.

  24. Vytvoření úlohy v 4ftTask

  25. Určení Ant, Suc • Rizikové faktory RFK/4 N • HLP = hyperlipoproteinemie • DM = diabetes mellitero • HT = hypertenze • RF = rodinná anamnéza - fatální • Cholesterol CHL/4 R • Chol = Celkový cholesterol • HDL = HDL Cholesterol • LDL = LDL Cholesterol • Tgl = Triacyglyceroly Suc ? Ant ? H: Jaké naměřené hodnoty CHL vedou k jednotlivým rizikovým faktorům

  26. Definice antecedentu

  27. Coeficient type Podmnožina Jediná kategorie dané proměnné v literálu Klouzavý interval Řezy

  28. Nastavení základních parametrů Antecedentu

  29. Doporučené nastavení cedentů Zdroj: Adamek_4IZ210_...pdf

  30. Definice Succedentu

  31. Použití procedury ASSOC

  32. Vysvětlení čtyřpolní tabulky Spolehlivost pravidla = a / (a + b) Podpora pravidla (Base) = a

  33. Nastavení kvantifikátorů

  34. Pohled na celkové nastavení úlohy

  35. Výsledky generování hypotéz

  36. Zobrazení hypotéz

  37. Zobrazení hypotéz

  38. Zobrazení hypotéz exportovaných do schránky

  39. Export do SEWEBAR

  40. Export do SEWEBAR

  41. Postřehy k realizaci úkolu • Je pravděpodobné, že úvodní požadované nastavení parametrů neumožní vygenerování většího počtu hypotéz • Expertimentální snižování parametrů má svá úskalí: • Nízká podpoora => spolehlivá pravidla, která nelze generalizovat (min = 20) • Nízká spolehlivost => neprůkazná pravidla • Snížování parametrů je nutné okomentovat • Teoretické pozadí procedury ASSOC • Seznámení s nástrojem LISP Miner • Demonstrace funkcionality nástroje na vzorových datech • Detailní postup pro 3. úkol

More Related