480 likes | 662 Views
LISP Miner a 3. úkol. 4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch. Osnova cvičení. Seznámení se zadáním 3. úkolu Analýza nákupního košíku a asociační pravidla Teoretické pozadí procedury ASSOC Seznámení s nástrojem LISP Miner
E N D
LISP Miner a 3. úkol 4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch
Osnova cvičení • Seznámení se zadáním 3. úkolu • Analýza nákupního košíku a asociační pravidla • Teoretické pozadí procedury ASSOC • Seznámení s nástrojem LISP Miner • Demonstrace funkcionality nástroje na vzorových datech • Detailní postup pro 3. úkol
Stručné zadání 3. úkolu • Seznámení se s nástrojem LISP Miner • Vyřešení analytické otázky zadané jednotlivým týmům • Navázání datového zdroje • Příprava dat • Použití procedury ASSOC (Fundovaná implikace, Nadprůměrné souvisení) • Nalezení rozumného počtu hypotéz (max 30 – 50) • Interpretace hypotéz s využitím dodatečných znalostí • Vypracování analytické zprávy v systému Sewebar • Vypracování zprávy pro lékaře v systému Sewebar
Užitečné i nezbytné zdroje • Tutoriály na LISP Miner: http://lispminer.vse.cz/tutorial • LM_SKRIPT_11.pdf = RAUCH, J. Systém LISp-Miner: Stručný popis určený pro posluchače kurzu Zpracování informací a znalostí. Praha: VŠE, 2011. = Popis systému a procedury ASSOC • LMDataSource_0409.pdf = popis komponenty LM Data Source pro přípravu dat • Adamek_pro_KIZI_0411.pdf = RAUCH, J., TOMEČKOVÁ, M. Adámek – popis dat (verse VI) = popis datového souboru použitého pro 3. úkol • Adamek_4IZ210_11_12_zima_ZADANI.pdf = podrobné zadání úlohy • 4ft-Miner_Cedenty_1111.pdf = Procedura 4ft-Miner – zadání množiny relevantních pravidel • Adamek_Data.zip = data k zadání • http://lispminer.vse.cz/tutorial/t6.html= export do SEWEBARu
Co je to analytická otázka? • klient(?) <=> kvalita(špatná) / typ(?) ... pro jaké parametry klienta a typy půjčky platí, že příslušnost klienta k segmentu je téměř totéž jako mít špatnou půjčku příslušného typu • klient(?) =>* kvalita(špatná)... pro jaké parametry klienta platí, že vedou ke špatné půjčce
Asociační pravidla • Pojem asociační pravidlo zaveden Agrawalem • V metodě GUHA se používal pojem hypotéza • 4ft = implementace procedury ASSOC metody GUHA automatického vytváření hypotéz • Lisp Miner = nástroj vyvíjený na KIZI
Přehled základních pojmů Kvantifikátor vztahu ≈ / Antecedent Succedent Condition Cedenty dílčí cedenty (atributy) spojené konjunkcí literály (hodnoty atributů) spojené konjunkcí nebo disjunkcí
Příklad přidělení analytických otázek jednotlivým týmům Zdroj: Adamek_4IZ210_...pdf
Úkol číslo 4: DZD – skupiny atributů Zdroj: Adamek_4IZ210_...pdf
LISP Miner - instalace Stáhněte si z webu http://lispminer.vse.cz/download tyto soubory: • http://lispminer.vse.cz/files/exe/LM.4ft.zip = základní modul LM pro proc 4FT • http://lispminer.vse.cz/files/exe/LM.Sewebar.zip = modul pro Sewebar • http://lispminer.vse.cz/files/exe/ws.export.zip = webová služba pro export • http://lispminer.vse.cz/files/exe/Barbora.zip = Vzorová data o loanech
Otevření nastavení úlohy s možností přegenerování hypotéz Spuštění modulu pro definici dat Přidání nové analýzy Spuštění modulu pro zobrazení výsledků (pro označenou úlohu)
Vytvoření kategoriálního atributu – krok 2 Primary Key nastaví primární klíč!!!!!! Bez něj do nepůjde
Vytvoření numerického spojitého atributu Tab. 3 Adamek_pro_KIZI_0310.pdf
Typy intervalů • Ekvidistantní intervaly = intervaly shodné délky • Ekvifrekvenční intervaly = intervaly se zhruba shodným počtem četností
Určení Ant, Suc • Rizikové faktory RFK/4 N • HLP = hyperlipoproteinemie • DM = diabetes mellitero • HT = hypertenze • RF = rodinná anamnéza - fatální • Cholesterol CHL/4 R • Chol = Celkový cholesterol • HDL = HDL Cholesterol • LDL = LDL Cholesterol • Tgl = Triacyglyceroly Suc ? Ant ? H: Jaké naměřené hodnoty CHL vedou k jednotlivým rizikovým faktorům
Coeficient type Podmnožina Jediná kategorie dané proměnné v literálu Klouzavý interval Řezy
Doporučené nastavení cedentů Zdroj: Adamek_4IZ210_...pdf
Vysvětlení čtyřpolní tabulky Spolehlivost pravidla = a / (a + b) Podpora pravidla (Base) = a
Postřehy k realizaci úkolu • Je pravděpodobné, že úvodní požadované nastavení parametrů neumožní vygenerování většího počtu hypotéz • Expertimentální snižování parametrů má svá úskalí: • Nízká podpoora => spolehlivá pravidla, která nelze generalizovat (min = 20) • Nízká spolehlivost => neprůkazná pravidla • Snížování parametrů je nutné okomentovat • Teoretické pozadí procedury ASSOC • Seznámení s nástrojem LISP Miner • Demonstrace funkcionality nástroje na vzorových datech • Detailní postup pro 3. úkol