220 likes | 332 Views
Multirelační GUHA, Ferda a genetická data. Martin Ralbovský KIZI FIS VŠE. Metoda GUHA. Původní česká metoda explorační analýzy dat Založena na logice (observační kalkuly) statistice (testování hypotéz) Téměř 40 let vývoje. Metoda GUHA - princip. Patterny , hypotézy, verifikace.
E N D
Multirelační GUHA, Ferda a genetická data Martin Ralbovský KIZI FIS VŠE
Metoda GUHA • Původní česká metoda explorační analýzy dat • Založena na • logice (observační kalkuly) • statistice (testování hypotéz) • Téměř 40 let vývoje
Patterny, hypotézy, verifikace • Pattern – jedna vygenerovaná formulka observačního kalkulu • Prime pattern – pattern, který je pravdivý v datech a nevyplývá z jiného jednoduššího pravdivého patternu • Hypotéza = pattern • Verifikace = ověření jednoho patternu
Příklad procedury – 4FT • Hledá asociační pravidla ve tvaru A ~ B kde A a B jsou Booleovské atributy a ~ je 4ft-kvantifikátor • Příklad pravidla: District(SouthEast) ~ Status(Good)
Proč multirelační? • Původní metoda byla omezena na minování pouze nad jednou tabulkou • Jedna tabulka – tvrzení o vlastnostech jedné entity • Více tabulek – vztahy mezi entitami Motivační příklad: • Údaje o klientech v jedné tabulce • Údaje o transakcích klientů v druhé tabulce
(Multi)relační metody - ILP • ILP – inductivelogicprogramming vhodné pro HODNĚ relací, z pozitivních a negativních příkladů (+ background knowledge) inferuje tvrzení • ILP propozicionalizace z vícero tabulek sestrojí jednu, nad kterou se dají spustit jiné algoritmy výsledné atributy jsou konjunkce (negovaných) literálů predikátové logiky
(Multi)relační metody - další WARMR • Spojení ILP a asociačních pravidel • Nejdříve provede propozicionalizaci a potom hledá asociační pravidla RELAGGS • Vypočítá agregace záznamů přímo v databázi • Poté hledá asociační pravidla
Multirelační GUHA - princip • Rozdělení úlohy na hlavní a vedlejší • Master a detail tabulka - hvězdicové schéma • Přidávání patternů z vedlejší úlohy do hlavní – virtuální atributy Příklad: • Detail tabulka – klient často platící kartou ClientID~Payment(CreditCard) • Master tabulka District(SoutEast)&ClientPayingByCreditCard ~ Status(Good)
Multirelační GUHA – detaily • Pro každého klienta se vyberou pouze jemu odpovídající řádky v tabulce transakcí • Pro každého klienta je různá hodnota virtuálního atributu (prozatím 0, 1) • Co odpovídá virtuálnímu atributu – hypotéza nebo pattern?
Multirelační GUHA – omezení • Problém s počtem virtuálních atributů v hlavní tabulce • Hvězdicové schéma není teoretickým, ale praktickým omezením • Příklad
Multirelační GUHA vs. Ostatní metody • Ze všech metod umožňuje GUHA největší expresivitu • Tato je vykoupena omezením na malý počet relací • Hodí se na úlohy s málo tabulkami, ideálně velká master a malá detail.
Multirelační GUHA - implementace • Konec 90. let – implementace v rámci systému LISp-Miner – nepoužívala se • Disertace T. Karbana, Rel-Miner– nedokončeno • Diplomová práce A. Kuzmina, Ferda – implementace multirelačních 4FT a SD4FT • Neúspěšné pokusy na Barboře • Slibné pokusy na genetických datech
Ferda - historie • Poslední z nástrojů implementující metodu GUHA • Původně projekt MFF UK, nyní vyvíjen na KIZI FIS VŠE • Založen 2003/2004 • Obhájen 2006 • Dále 6 diplomových a 1 bakalářská práce
Devatero řemesel… • Vysoce modulární systém: • Používá se middleware pro komunikaci • Moduly mohou být napsány v 5 různých jazycích • Moduly mohou komunikovat libovolně po síti • Vlastní částečně rekurzivní programovací jazyk • 7 relačních GUHA procedur, 2 multirelační procedury, nové kvantifikátory • Podpora ontologií, podpora uživatelského rozhodování…
Genetická data • Datový zdroj zkompilovaný na FEL ČVUT • Měření expresí genů pomocí DNA mikrosond Affymetrics • 2 zkoumané typy buňek– hematopoetická a stromální (tvorba kostní dřeně) • 3 zkoumané organismy • Data měření obohacená o informace o pathways a fluxes
Pathway a flux • Molekulární pathway – graf reprezentující síť molekulárních reakcí a interakcí • Full-coupled-flux (FCF) – lineární podgraf pathway (všechny geny v něm mají expresi) Pracovní hypotéza: exprese genů nějakým způsobem souvisí s tvorbou buňek • Úroveň genů je příliš malá granularita • Úroveň pathways je příliš velká granularita • Zkusme FCF!
Experimenty • Virtuální atributy typu „Vysoká exprese genu X ve FCF“ • Výsledek: pravidla ve tvaru [FluxID(a) ~ GeneLevel(b)] ~ CellType(c) Použité kvantifikátory: 100% konfidence • Prohlížení experimentů
Další práce • Odladění + škálování • Správná diskretizace hodnot atributů • Sonda vs. chip