130 likes | 243 Views
Autor : Bc. Július Pál Vedúci práce: RNDr. Tomáš Horváth, PhD. Konzultant: MUDr. Dušan Béreš, MPH. Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník. Ústav informatiky, Prírodovedecká fakulta, UPJŠ. Ciele pr áce.
E N D
Autor: Bc. Július Pál Vedúci práce: RNDr. Tomáš Horváth, PhD. Konzultant: MUDr. Dušan Béreš, MPH. Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník Ústav informatiky, Prírodovedecká fakulta, UPJŠ
Cielepráce • Analýza a prípadná implementácia dostupných metód pre modelovanie šírenia epidemického procesu. • Získanie relevantných dát • Návrh modelu pre predikciu šírenia nákazy na základe techník dolovania dát. • Implementácia navrhnutého modelu, ktorý pre konkrétnu populáciu vypočíta mieru stanovených rizík jednotlivých špecifikovaných faktorov, ktoré ovplyvňujú proces šírenia nákazy.
Metodika práceCRISP-DM ( Cross - Industry Standard Proces forDataMining) Pochopenie cieľa Pochopenie dát Príprava dát Modelovanie Implementácia Vyhodnotenie
Pochopeniecieľa • Súčasný stav riešenej problematiky (analýza procesov šírenia nákaz) • Vírusová hepatitída typu A (VHA) • identifikovanie príčin náhodných zmien VHA • proces šírenia VHA • vnímavosť na VHA
Pochopenie dát • Dáta výskytu VHA v Slovenskej republike od roku 1997 do 2012, získané z centrálneho registra dát prenosných ochorení • 12054 záznamov a 50 atribútov • analýza hodnôt atribútov • popis časového radu výskytu VHA • one-classclassification
Príprava dát • Dátové čistenie - výskyt prázdnych hodnôt • Relevančnáanalýza – odstránenie redundantných atribútov • atribút pohlavie • atribút kraj bydliska • vek, vekové skupiny • kolektívne zaradenie • spôsob zistenia ochorenia • charakter výskytu - cieľový atribút • sociálne prostredie • Očkovanie • klinická forma • mesiac ochorenia • Dátová transformácia
Navrhnutie modelu pre predikciu šírenia VHA • Predikcia cieľového atribútu pomocou klasifikačných metód – hľadanie hyperparametrov modelu • Trénovacie a testovacie množiny • Kritéria modelov – interpretovateľnosť, presnosť predpovede • Učiace algoritmy • Model logistickej regresie - predikcia cieľového atribútu diskrétnych hodnôt, odhad parametrov wT • Model rozhodovacieho stromu - predikcia cieľového atribútu za pomoci jednoduchých rozhodovacích pravidiel, kritérium delenia podľa entropie systému
Model z frekventovaných množín • analýza obchodno-transakčných údajov, algoritmy "nákupného košíka„ • nájdenie najčastejšie sa vyskytujúcich množín a ich podmnožín • algoritmus ECLAT • vzťahy frekventovaných množín pre VHA, rozdiel položiek podľa charakteru výskytu • navrhnutý vlastný klasifikačný model na základe frekventovaných položiek
Vyhodnotenie • na testovacej množine VHA za rok 2012 • nájdenie vzťahov, ktoré najviac ovplyvňujú pozitívnu klasifikáciu • vhodnou kombináciu všetkých týchto troch modelov, vieme dosiahnuť úspešnosť ~ 80%
Vyjadreniedoménovéhoexperta • Jedná sa o prácu, ktorá v oblasti infekčnej epidemiológie na Slovensku je priekopníckou. • Očakávania boli dvojakého charakteru: • Predikcia charakteru výskytu prenosného ochorenia (VHA). • Hľadanie súvislostí medzi premennými (faktormi podmieňujúcimi epidemický procesVHA). • Je žiaduce aby sa metóda dolovania dát začala štandardne používať v analýzach procesov šírenia nákaz, pretože len tak je možné odhaliť súvislosti, ktoré pri doteraz používaných analytických metódach unikali pozornosti. Uvedená práca predstavila nové smerovanie spracovania neuveriteľne veľkého množstva dát centrálnych registrov nielen prenosných ochorení, ale aj iných, neprenosných ochorení.