260 likes | 377 Views
MUDIM. Mgr. Petr Šimeček. Nevíte, co dělat s daty?. Veličin je příliš mnoho?. Váš statistik prohlásil, že pokud mu nedodáte hypotézy, tak nemá co by testoval?. Použijte MUDIM!. Přehled. MUDIM co to je jak je implementován jak a nač se používá Aplikace na konkrétní data
E N D
MUDIM Mgr. Petr Šimeček
Váš statistik prohlásil, že pokud mu nedodáte hypotézy, tak nemá co by testoval?
Přehled • MUDIM • co to je • jak je implementován • jak a načse používá • Aplikace na konkrétní data • heuristiky na hledání modelu
Co je to MUDIM? • Systém pro praktické výpočtyv oblasti mnohorozměrných diskrétních modelů využívající předchozí teorii. • Objektově orientovaný systém. • Volně šiřitelný, neustále se vyvíjející kód.
Z pohledu programátora • Jádro systému je napsáno v C++ • rychlost • použitelnost pod různými systémy(UNIX, Windows) • OOP • Front-endem je prostředí R(MUDIM je balíček pro R) • snadná ovladatelnost • možnost využití funkcí jazyka R
Příklad datového souboru. VEK;BMI.CLASS;CHLST.LEVEL;DIABET;PIVO.MN;HT;LIH.MN;SMOKING;TRIG.LEVEL;VINO.MN;HYPLIP 3;1;2;2;1;2;9;3;1;4;2 1;2;1;2;1;1;7;1;1;5;2 2;3;2;2;2;2;8;1;1;5;2 4;1;2;2;2;1;7;3;1;4;2 1;3;3;2;2;2;7;1;3;4;2 1;1;2;2;1;2;7;3;2;5;2 3;2;2;2;1;2;8;3;1;5;2 ...
Distribuce Data Tabulka Model Typy distribucí
Co MUDIM zatím umí? • Načtení a analýza dat, popis dat jako XML. • Marginalizace. • Výpočet entropie, KL-divergence, sdružené informace. • Sestavení modelu. • Převod modelu zpět na kontingenční tabulku.
Aplikace na data: Medicínská data (VDHT) z EuroMISE: • 184 pacientů • 11 sledovaných proměnných • věk (4) • BMI (3) • cholesterol (3) • diabetes (2) • konzumace piva (3) • hypertenze (2) • konzumace lihovin (3) • kouření (3) • triglyceridy (3) • konzumace vína (3) • hyperlipidemie (2)
1 PIVO.MN VINO.MN 0.1035639662 2 LIH.MN VINO.MN 0.1033253179 3 PIVO.MN SMOKING 0.0501680456 4 TRIG.LEVEL VINO.MN 0.0479919630 5 SMOKING VINO.MN 0.0407428609 6 BMI.CLASS LIH.MN 0.0406078729 7 SMOKING TRIG.LEVEL 0.0333677289 8 BMI.CLASS VINO.MN 0.0297638042 9 BMI.CLASS TRIG.LEVEL 0.0271423642 10 PIVO.MN LIH.MN 0.0263946970 11 LIH.MN TRIG.LEVEL 0.0261251669 12 BMI.CLASS CHLST.LEVEL 0.0247206356 13 CHLST.LEVEL TRIG.LEVEL 0.0230026513 ... Marginály o 2 proměnných seřazené podle informace
PIVO.MN VINO.MN 0.0000001 LIH.MN VINO.MN 0.0000001 PIVO.MN SMOKING 0.0010023 TRIG.LEVEL VINO.MN 0.0014372 SMOKING VINO.MN 0.0047150 HT HYPLIP 0.0047559 BMI.CLASS LIH.MN 0.0048194 SMOKING TRIG.LEVEL 0.0153906 BMI.CLASS HT 0.0166960 BMI.CLASS VINO.MN 0.0270964 BMI.CLASS TRIG.LEVEL 0.0406237 PIVO.MN LIH.MN 0.0455452 LIH.MN TRIG.LEVEL 0.0474556 ... Marginály o 2 proměnných seřazené podle p-hodnoty
PIVO.MN LIH.MN VINO.MN 0.351246592 PIVO.MN SMOKING VINO.MN 0.218012608 BMI.CLASS LIH.MN VINO.MN 0.190633269 PIVO.MN TRIG.LEVEL VINO.MN 0.186371743 BMI.CLASS PIVO.MN VINO.MN 0.178264765 LIH.MN TRIG.LEVEL VINO.MN 0.170400340 LIH.MN SMOKING VINO.MN 0.167947946 VEK LIH.MN VINO.MN 0.165079855 CHLST.LEVEL PIVO.MN VINO.MN 0.158811169 VEK PIVO.MN VINO.MN 0.157437308 ... Marginály o 3 proměnných seřazené podle informace
DAG model (HUGIN, vylepšený PC algoritmus)
UG model (MIM, maximalizace AIC přes určitou množinu modelů)
MUDIM–hledání modelu • jednoduché metody založené na skládání modelu z dvojic či trojics maximální informací • rozmanité heuristiky založené na • maximalizaci informace • statistických testech a kritériích • p-hodnota • inf. kritéria: BIC, AIC
Jednoduché metody: • Nagenerují se všechny marginály o daném (nízkém) počtu proměnných. • Seřadí se podle informace a vybere se několik „nejlepších“ 1,…, n • Z nich se poskládá model (buďto přímo nebo zkoušíme všechny možné permutace): i1► … ► in • Informace v modelu z dat VDHT: • dvojice: 0,4462232 (13%) • trojice: 0,7987135(23%)
Heuristika prof.Jirouška: Vstup: • Seznam distribucí 1(xK1),…,n(xKn) • Počáteční proměnná Xm Inicializace: L:={m}; k:=1; Výpočet: • Nalezni maximum MIi(Xj,XKi⋂L) přes všechna i=1,…,n a j∈Ki∖L • k := j (X(Ki⋂L)⋃{j}) • k:=k+1; L:=L ⋃{j}; Výstup:1► … ► k
Výsledek pro data VDHT: "PIVO.MN" "PIVO.MN" "VINO.MN" "PIVO.MN" "VINO.MN" "LIH.MN" "PIVO.MN" "VINO.MN" "SMOKING" "PIVO.MN" "LIH.MN" "BMI.CLASS" "VINO.MN" "BMI.CLASS" "TRIG.LEVEL" "PIVO.MN" "BMI.CLASS" "VEK" "BMI.CLASS" "VEK" "CHLST.LEVEL" "BMI.CLASS" "TRIG.LEVEL" "HT" "LIH.MN" "HT" "HYPLIP" "VEK" "CHLST.LEVEL" "DIABET" Informace v modelu z dat VDHT: 0.9623275 (28%)
Heuristika založenána p-hodnotě "PIVO.MN" "PIVO.MN" "VINO.MN" "LIH.MN" "VINO.MN" "PIVO.MN" "SMOKING" "PIVO.MN" "VINO.MN" "TRIG.LEVEL" "VINO.MN" "SMOKING" "HT" "HYPLIP" "BMI.CLASS" "LIH.MN" "HT" Informace v modelu z dat VDHT: 0.630544 (18%)