1 / 26

MUDIM

MUDIM. Mgr. Petr Šimeček. Nevíte, co dělat s daty?. Veličin je příliš mnoho?. Váš statistik prohlásil, že pokud mu nedodáte hypotézy, tak nemá co by testoval?. Použijte MUDIM!. Přehled. MUDIM co to je jak je implementován jak a nač se používá Aplikace na konkrétní data

olinda
Download Presentation

MUDIM

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. MUDIM Mgr. Petr Šimeček

  2. Nevíte, co dělat s daty?

  3. Veličin je příliš mnoho?

  4. Váš statistik prohlásil, že pokud mu nedodáte hypotézy, tak nemá co by testoval?

  5. Použijte MUDIM!

  6. Přehled • MUDIM • co to je • jak je implementován • jak a načse používá • Aplikace na konkrétní data • heuristiky na hledání modelu

  7. Co je to MUDIM? • Systém pro praktické výpočtyv oblasti mnohorozměrných diskrétních modelů využívající předchozí teorii. • Objektově orientovaný systém. • Volně šiřitelný, neustále se vyvíjející kód.

  8. Z pohledu programátora • Jádro systému je napsáno v C++ • rychlost • použitelnost pod různými systémy(UNIX, Windows) • OOP • Front-endem je prostředí R(MUDIM je balíček pro R) • snadná ovladatelnost • možnost využití funkcí jazyka R

  9. Z pohledu uživatele

  10. Příklad datového souboru. VEK;BMI.CLASS;CHLST.LEVEL;DIABET;PIVO.MN;HT;LIH.MN;SMOKING;TRIG.LEVEL;VINO.MN;HYPLIP 3;1;2;2;1;2;9;3;1;4;2 1;2;1;2;1;1;7;1;1;5;2 2;3;2;2;2;2;8;1;1;5;2 4;1;2;2;2;1;7;3;1;4;2 1;3;3;2;2;2;7;1;3;4;2 1;1;2;2;1;2;7;3;2;5;2 3;2;2;2;1;2;8;3;1;5;2 ...

  11. Distribuce Data Tabulka Model Typy distribucí

  12. Co MUDIM zatím umí? • Načtení a analýza dat, popis dat jako XML. • Marginalizace. • Výpočet entropie, KL-divergence, sdružené informace. • Sestavení modelu. • Převod modelu zpět na kontingenční tabulku.

  13. Aplikace na data: Medicínská data (VDHT) z EuroMISE: • 184 pacientů • 11 sledovaných proměnných • věk (4) • BMI (3) • cholesterol (3) • diabetes (2) • konzumace piva (3) • hypertenze (2) • konzumace lihovin (3) • kouření (3) • triglyceridy (3) • konzumace vína (3) • hyperlipidemie (2)

  14. 1 PIVO.MN VINO.MN 0.1035639662 2 LIH.MN VINO.MN 0.1033253179 3 PIVO.MN SMOKING 0.0501680456 4 TRIG.LEVEL VINO.MN 0.0479919630 5 SMOKING VINO.MN 0.0407428609 6 BMI.CLASS LIH.MN 0.0406078729 7 SMOKING TRIG.LEVEL 0.0333677289 8 BMI.CLASS VINO.MN 0.0297638042 9 BMI.CLASS TRIG.LEVEL 0.0271423642 10 PIVO.MN LIH.MN 0.0263946970 11 LIH.MN TRIG.LEVEL 0.0261251669 12 BMI.CLASS CHLST.LEVEL 0.0247206356 13 CHLST.LEVEL TRIG.LEVEL 0.0230026513 ... Marginály o 2 proměnných seřazené podle informace

  15. PIVO.MN VINO.MN 0.0000001 LIH.MN VINO.MN 0.0000001 PIVO.MN SMOKING 0.0010023 TRIG.LEVEL VINO.MN 0.0014372 SMOKING VINO.MN 0.0047150 HT HYPLIP 0.0047559 BMI.CLASS LIH.MN 0.0048194 SMOKING TRIG.LEVEL 0.0153906 BMI.CLASS HT 0.0166960 BMI.CLASS VINO.MN 0.0270964 BMI.CLASS TRIG.LEVEL 0.0406237 PIVO.MN LIH.MN 0.0455452 LIH.MN TRIG.LEVEL 0.0474556 ... Marginály o 2 proměnných seřazené podle p-hodnoty

  16. PIVO.MN LIH.MN VINO.MN 0.351246592 PIVO.MN SMOKING VINO.MN 0.218012608 BMI.CLASS LIH.MN VINO.MN 0.190633269 PIVO.MN TRIG.LEVEL VINO.MN 0.186371743 BMI.CLASS PIVO.MN VINO.MN 0.178264765 LIH.MN TRIG.LEVEL VINO.MN 0.170400340 LIH.MN SMOKING VINO.MN 0.167947946 VEK LIH.MN VINO.MN 0.165079855 CHLST.LEVEL PIVO.MN VINO.MN 0.158811169 VEK PIVO.MN VINO.MN 0.157437308 ... Marginály o 3 proměnných seřazené podle informace

  17. DAG model (HUGIN, vylepšený PC algoritmus)

  18. UG model (MIM, maximalizace AIC přes určitou množinu modelů)

  19. MUDIM–hledání modelu • jednoduché metody založené na skládání modelu z dvojic či trojics maximální informací • rozmanité heuristiky založené na • maximalizaci informace • statistických testech a kritériích • p-hodnota • inf. kritéria: BIC, AIC

  20. Jednoduché metody: • Nagenerují se všechny marginály o daném (nízkém) počtu proměnných. • Seřadí se podle informace a vybere se několik „nejlepších“ 1,…, n • Z nich se poskládá model (buďto přímo nebo zkoušíme všechny možné permutace): i1► … ► in • Informace v modelu z dat VDHT: • dvojice: 0,4462232 (13%) • trojice: 0,7987135(23%)

  21. Heuristika prof.Jirouška: Vstup: • Seznam distribucí 1(xK1),…,n(xKn) • Počáteční proměnná Xm Inicializace: L:={m}; k:=1; Výpočet: • Nalezni maximum MIi(Xj,XKi⋂L) přes všechna i=1,…,n a j∈Ki∖L • k := j (X(Ki⋂L)⋃{j}) • k:=k+1; L:=L ⋃{j}; Výstup:1► … ► k

  22. Výsledek pro data VDHT: "PIVO.MN" "PIVO.MN" "VINO.MN" "PIVO.MN" "VINO.MN" "LIH.MN" "PIVO.MN" "VINO.MN" "SMOKING" "PIVO.MN" "LIH.MN" "BMI.CLASS" "VINO.MN" "BMI.CLASS" "TRIG.LEVEL" "PIVO.MN" "BMI.CLASS" "VEK" "BMI.CLASS" "VEK" "CHLST.LEVEL" "BMI.CLASS" "TRIG.LEVEL" "HT" "LIH.MN" "HT" "HYPLIP" "VEK" "CHLST.LEVEL" "DIABET" Informace v modelu z dat VDHT: 0.9623275 (28%)

  23. Ekvivalentní Bayesovská síť

  24. Heuristika založenána p-hodnotě "PIVO.MN" "PIVO.MN" "VINO.MN" "LIH.MN" "VINO.MN" "PIVO.MN" "SMOKING" "PIVO.MN" "VINO.MN" "TRIG.LEVEL" "VINO.MN" "SMOKING" "HT" "HYPLIP" "BMI.CLASS" "LIH.MN" "HT" Informace v modelu z dat VDHT: 0.630544 (18%)

  25. Ekvivalentní Bayesovská síť

  26. Děkuji za pozornost.

More Related