150 likes | 340 Views
Projekt LISp-Miner. Milan Šimůnek. Obsah. Význam databází a uchovávaných informací Proces dobývání znalostí z databází Nástroje pro analýzu dat Systém LISp-Miner Projekt LISp-Miner Závěr a dotazy. Databáze a informace v nich. Rozsáhlé databáze náklady na naplnění, provoz a údržbu
E N D
Projekt LISp-Miner Milan Šimůnek
Obsah • Význam databází a uchovávaných informací • Proces dobývání znalostí z databází • Nástroje pro analýzu dat • Systém LISp-Miner • Projekt LISp-Miner • Závěr a dotazy Milan Šimůnek – Projekt LISp-Miner
Databáze a informace v nich • Rozsáhlé databáze • náklady na naplnění, provoz a údržbu • možnost využití ukrytých informací • snížení nákladů • náskok před konkurencí • Typické otázky • závisí splácení půjčky na věku dlužníka? • zvýší se riziko některých poruch, když automobil neparkuje v garáži? • vyskytuje se v datech nějaká závislost? Milan Šimůnek – Projekt LISp-Miner
Proces DZD • Posloupnost kroků • Definice cílů analýzy • Získání dat pro analýzu a jejich příprava • Zpracování analýzy • Interpretace výsledků a vyvození závěrů • Aplikace výsledků a kontrola účinků • Metodologie CRISP-DM Milan Šimůnek – Projekt LISp-Miner
Nástroje pro analýzu dat • Podpůrné nástroje pro analýzu • velké množství dat (rutinní činnost) • připravené metody analýzy (know-how) • podpora interpretace výsledků • tvorba znalostní báze pro expertní systém • Rozdíl oproti transakčním databázím • nástroje pracují „nad“ databázemi/DW • velké množství dotazů do databáze (parametry) • kategorizace dat, vizualizace výsledků Milan Šimůnek – Projekt LISp-Miner
Systém LISp-Miner • Vývoj na VŠE od roku 1996 • procedura 4ftMiner • expertní systém KEx • Využití ve výuce • VŠE Praha, MFF UK Praha • diplomové a disertační práce • Využití v praxi • EuroMISE Cardio – lékařský výzkum • ČVUT Praha, VUT Brno • a další Milan Šimůnek – Projekt LISp-Miner
Projekt LISp-Miner • Velké množství subjektů s požadavky na rozšíření systému • Rostoucí počet členů vývojového týmu • Formalizace vývoje projektu • řídící procedury • pravidla dokumentace • Konzistence systému, plánování zdrojů Milan Šimůnek – Projekt LISp-Miner
Specifika projektu • Velké množství lidí podílejících se na vývoji • Geografická rozptýlenost • nemožnost osobních setkání • Nestabilita projektového týmu • ukončení studia • získávání nových studentů • jednorázové analýzy dat Milan Šimůnek – Projekt LISp-Miner
Domovská stránka • Univerzální místo pro řízení projektu • dostupná celosvětově, 24 hodin denně • http://lispminer.vse.cz • Dvě hlavní části • Uživatelská • volně přístupná • teorie, termíny, nápověda k systému, stažení nové verze • Projektová • pro členy projektového týmu • dokumenty k projektu, beta-verze Milan Šimůnek – Projekt LISp-Miner
Projektová dokumentace • Zaznamenání znalostí nezávisle na autorech • jsou dostupné i po odchodu původních autorů • Kategorie dokumentů • organizační • 002 Řídící procedury– pravidla, konvence • 001 Seznam dokumentů • 006 Seznam úkolů a námětů • šablony pro tvorbu nových dokumentů • výzkumné zprávy • programátorská dokumentace Milan Šimůnek – Projekt LISp-Miner
Obecná architektura systému • Metabáze • centrální úložiště uživatelských dat • Mnoho modulů • pracují s metabází • libovolný počet • dodržováníkonvencí Milan Šimůnek – Projekt LISp-Miner
Základní architektura systému Milan Šimůnek – Projekt LISp-Miner
Detailní architektura jádra Milan Šimůnek – Projekt LISp-Miner
Rozšiřitelnost systému • Modulární systém s centrální metabází • snadné přidání nového modulu • 008 Struktura metabáze • 4ftGen – generování a verifikace hypotéz • specializovaná (webová) rozhraní • Nový datový modul • J. Mach • odstínění práce s metabází • zpřístupnění pomocí COM-objektů a webových služeb Milan Šimůnek – Projekt LISp-Miner
Závěr • Hodnota dat uložených v databázích • snaha o maximální „výtěžnost“ • využití v nových oblastech • Proces DZD a nástroje pro analýzu • metodologie (CRISP-DM) • Systém LISp-Miner • vývoj systému a řízení projektu Milan Šimůnek – Projekt LISp-Miner