1 / 24

Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník

Bc. Július Pál Vedúci práce: RNDr. Tomáš Horváth, PhD. Konzultant: MUDr. Dušan Béreš, MPH. Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník. Ústav informatiky, Prírodovedecká fakulta, UPJŠ. Úvod. Charakteristika základného problému Metodika analýz y dát

helga
Download Presentation

Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bc. Július Pál Vedúci práce: RNDr. Tomáš Horváth, PhD. Konzultant: MUDr. Dušan Béreš, MPH. Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník Ústav informatiky, Prírodovedecká fakulta, UPJŠ

  2. Úvod • Charakteristika základného problému • Metodika analýzy dát • Výsledky • Diskusia

  3. Ciele • Ciele: 1) Analýza a prípadná implementácia dostupných metód pre modelovanie šírenia epidemického procesu. 2) Získanie reálnych dát 3) Návrh modelu pre predikciu šírenia nákazy na základe datamining techník. 4) Implementácia navrhnutého modelu, ktorý pre konkrétnu populáciu vypočíta mieru stanovených rizík jednotlivých faktorov, ktoré ovplyvňujú proces šírenia nákazy

  4. Charakteristika základného problému

  5. Charakteristika základného problému • Predmetom mojej diplomovej práce je riešiť proces šírenia nákazy, konkrétne vírusových žltačiek typu A Čo je vírusová hepatitída typu A? Čo je proces šírenia nákazy? Hepatitída typu A je prenosné ochorenie spôsobená vírusom hepatitídy typu A  pre ktoré je charakteristická fekálne-orálna cesta prenosu pôvodcu nákazu. Hlavným symptómom je akútny zápal pečene (hepatitída). Proces šírenia nákazy je epidemický proces - je to sústavný výskyt toho istého ochorenia v určitej skupine ľudí, v určitom čase ( spravidla dvojnásobok maximálneho inkubačného času ) a v určitom priestore.

  6. Charakteristika základného problému • Zameraním mojej práce je identifikovať príčiny, uvedených náhodných zmien výskytu VHA, na Slovensku resp. v okrese Rimavská Sobota hľadať a identifikovať súvislosti medzi výskytom a možnými príčinami za dostupných dát registra prenosných ochorení, ktorý vedie RÚVZ v Banskej Bystrici. • Okrem predpokladaných rizikových faktorov ako sú vek, spôsob zásobovania pitnou vodou, úroveň osobnej hygieny, stav imunity vnímavosti je predpoklad že náhodné zmeny vznikajú aj ako následok, iných príčin resp. tieto potencujú už uvedené príčiny.

  7. Metodika ako sa bude robiť analýza dát

  8. Metodika ako sa bude robiť analýza dát CRISP DM model (CrossIndustry Standard ProcessforDataMining) • Pochopeniecieľa • Pochopenie dát • Príprava dát • Modelovanie • Vyhodnotenie • Nasadenie

  9. Metodika ako sa bude robiť analýza dát • Analýza dát • Analýza dát získaných z centrálneho registra prenosných ochorení RÚVZ so sídlom v Banskej Bystrici, za celé Slovensko, bez dát klasifikovaných ako osobné údaje, za obdobie od 1. 1. 1997 do 31. 12. 2012 • 12047 záznamov • 47 atribútov • 12 klasifikačných • 35 hodnotové atribúty

  10. Popis už existujúcich metód predikcie

  11. Popis už existujúcich metód predikcie • Model SIR - Kermackův – Mc Kendrickův model [Vasicek] • Jednoduchý cellulárný automat [Beuchemin] • Analýza časových radov • Použitím neuralných sietí [Ture, Kurt;2006] • Viacvrstvový perceptron • RBF siete • TDDN- time delay neural network • ARIMA – model

  12. Popis už existujúcich metód predikcie • Analýza časových radov • Porovnanie datamining technik [Carpinteiro;  Leite;Pinheiro;Lima] • SVM – support vector machine • SOM – self organizing map • MLP – multi layer perceptron

  13. Analýza dát

  14. Analýza dát • Kontrola dát, odstránenenie neplatných dát, chybných údajov • Konzistentnosť dát • Popis jednotlivých atribútov

  15. Analýza dát • Vytvorenie grafického prehľadu výskytu VHA,určenie časovej rady, podľa výskytu • Pre kazdyden • Mesačný

  16. Analýza dát • Analýza dát pomocou dataminigového softwaru RapidMiner • Určenie regulárnosti údajov, počet nekompletných údajov • Analýza jednotlivých atribútov

  17. Analýza dát • Vek

  18. Analýza dát • Kolektív

  19. Analýza dát • Kraj nákazy

  20. Analýza dát • Freqvent itemset mining – ECLAT • Určenie tabuľky atribútov – 3802 • Frekvencia výskytu – 10 % • Hodnotenie výsledkov

  21. Analýza dát • pocetDavOckovania_0 intervalOckovania_0 Slovensko klasifikacia_potvrdený B15 (88.4438) • vyhľadanie zdrav.pomoci vyzdravenie klasifikacia_potvrdený B15 (75.4965) • sporadický vyhľadanie zdrav.pomoci klasifikacia_potvrdený B15 (54.63) • mechPrenos_neznámy sporadický vyhľadanie zdrav.pomoci B15 (40.4676) • mimo kolektív sporadický B15 (36.177) • muž B15 (55.0155) • nízky hygienický štandard nepracujúci/dieťa klasifikacia_potvrdený B15 (41.6995) • nízky hygienický štandard muž mimo kolektív vyhľadanie zdrav.pomoci (13.6345) • faktorPrenos_kontaminované predmety klasifikacia_potvrdený B15 Slovensko (8.12034) Pri 9% vyskyte sme dostali 299068 – rôznych kombinácii

  22. Analýza dát • Iný pohľad • mesiac_oktoberklasifikacia_potvrdený B15 (17.3133) • pramen_nezistený (26.6655) • pramen_človek chorý Slovensko B15 (26.2214) • vek_od5_do9 klasifikacia_potvrdený B15 (21.9894) Zameranie sa na fixáciu jednotlivých premenných Korelácia medzi atribútmi Relatívne údaje vs absolútne

  23. Analýza dát • One class klasifikácia • ECLAT – frequent items set mining • SVM – support vector machine • ARIMA – model

  24. Ďakujem za pozornosť!

More Related