110 likes | 264 Views
KDD II. David Pejčoch. KDD vs. data mining. KDD = Knowledge discovery in databases, česky Získávání znalostí z databází nebo DZD = celý proces (viz např. CRISP-DM) data mining = část procesu spočívající ve vlastním vytěžení ... ale... v praxi se rozdíl mezi pojmy stírá. Klíčové výzvy KDD.
E N D
KDD II David Pejčoch
KDD vs. data mining • KDD = Knowledge discovery in databases, česky Získávání znalostí z databází nebo DZD = celý proces (viz např. CRISP-DM) • data mining = část procesu spočívající ve vlastním vytěžení • ... ale... v praxi se rozdíl mezi pojmy stírá
Klíčové výzvy KDD • Začlenění dodatečných znalostí do modelů • Srozumitelná reprezentace získaných znalostí • Větší interaktivita s uživatelem • Vypořádání se s nekvalitními daty • Zohlednění subjektivních metrik • Media mining • Relační data mining (bez nutnosti specifické přípravy) • Vytěžování sociálních sítí (Facebook v ČR 2,7 mio)
Jaké použít nástroje? • Nekomerční • Weka, Yale, R, Rapid Miner, Knime • Komerční • SAS EnterpriseMiner (kvadrant leaderů) • SAS STAT modul • IBM SPSSModeller (dříve Clementine) (kvadrant leaderů • Angoss Software • ... v některých případech jsou součástí DB řešení
... jaké je zadání? • Přiřazení analytické otázky jednotlivým týmům • Určení antecedentu a sukcedentu • Použití procedury ASSOC • Fundovaná implikace • AA kvantifikátor • Nalezení rozumného počtu pravidel • Interpretace s využitím dodatečných znalostí • Automatické vytvoření zprávy na SEWEBAR • Syntetizující zpráva na SEWEBAR
Doporučené nastavení: • Literal type = Basic • Gace type = Positive • Mění se podle zadání: • Coefficient type • Coefficient length