1 / 13

Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník

Autor : Bc. Július Pál Vedúci práce: RNDr. Tomáš Horváth, PhD. Konzultant: MUDr. Dušan Béreš, MPH. Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník. Ústav informatiky, Prírodovedecká fakulta, UPJŠ. Ciele pr áce.

eliot
Download Presentation

Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Autor: Bc. Július Pál Vedúci práce: RNDr. Tomáš Horváth, PhD. Konzultant: MUDr. Dušan Béreš, MPH. Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník Ústav informatiky, Prírodovedecká fakulta, UPJŠ

  2. Cielepráce • Analýza a prípadná implementácia dostupných metód pre modelovanie šírenia epidemického procesu. • Získanie relevantných dát • Návrh modelu pre predikciu šírenia nákazy na základe techník dolovania dát. • Implementácia navrhnutého modelu, ktorý pre konkrétnu populáciu vypočíta mieru stanovených rizík jednotlivých špecifikovaných faktorov, ktoré ovplyvňujú proces šírenia nákazy.

  3. Metodika práceCRISP-DM ( Cross - Industry Standard Proces forDataMining) Pochopenie cieľa Pochopenie dát Príprava dát Modelovanie Implementácia Vyhodnotenie

  4. Pochopeniecieľa • Súčasný stav riešenej problematiky (analýza procesov šírenia nákaz) • Vírusová hepatitída typu A (VHA) • identifikovanie príčin náhodných zmien VHA • proces šírenia VHA • vnímavosť na VHA

  5. Pochopenie dát • Dáta výskytu VHA v Slovenskej republike od roku 1997 do 2012, získané z centrálneho registra dát prenosných ochorení • 12054 záznamov a 50 atribútov • analýza hodnôt atribútov • popis časového radu výskytu VHA • one-classclassification

  6. Príprava dát • Dátové čistenie - výskyt prázdnych hodnôt • Relevančnáanalýza – odstránenie redundantných atribútov • atribút pohlavie • atribút kraj bydliska • vek, vekové skupiny • kolektívne zaradenie • spôsob zistenia ochorenia • charakter výskytu - cieľový atribút • sociálne prostredie • Očkovanie • klinická forma • mesiac ochorenia • Dátová transformácia

  7. Navrhnutie modelu pre predikciu šírenia VHA • Predikcia cieľového atribútu pomocou klasifikačných metód – hľadanie hyperparametrov modelu • Trénovacie a testovacie množiny • Kritéria modelov – interpretovateľnosť, presnosť predpovede • Učiace algoritmy • Model logistickej regresie - predikcia cieľového atribútu diskrétnych hodnôt, odhad parametrov wT • Model rozhodovacieho stromu - predikcia cieľového atribútu za pomoci jednoduchých rozhodovacích pravidiel, kritérium delenia podľa entropie systému

  8. Model rozhodovacieho stromu

  9. Model z frekventovaných množín • analýza obchodno-transakčných údajov, algoritmy "nákupného košíka„ • nájdenie najčastejšie sa vyskytujúcich množín a ich podmnožín • algoritmus ECLAT • vzťahy frekventovaných množín pre VHA, rozdiel položiek podľa charakteru výskytu • navrhnutý vlastný klasifikačný model na základe frekventovaných položiek

  10. Model z frekventovaných množín

  11. Vyhodnotenie • na testovacej množine VHA za rok 2012 • nájdenie vzťahov, ktoré najviac ovplyvňujú pozitívnu klasifikáciu • vhodnou kombináciu všetkých týchto troch modelov, vieme dosiahnuť úspešnosť ~ 80%

  12. Ďakujem za pozornosť!

  13. Vyjadreniedoménovéhoexperta • Jedná sa o prácu, ktorá v oblasti infekčnej epidemiológie na Slovensku je priekopníckou. • Očakávania boli dvojakého charakteru: • Predikcia charakteru výskytu prenosného ochorenia (VHA). • Hľadanie súvislostí medzi premennými (faktormi podmieňujúcimi epidemický procesVHA). • Je žiaduce aby sa metóda dolovania dát začala štandardne používať v analýzach procesov šírenia nákaz, pretože len tak je možné odhaliť súvislosti, ktoré pri doteraz používaných analytických metódach unikali pozornosti. Uvedená práca predstavila nové smerovanie spracovania neuveriteľne veľkého množstva dát centrálnych registrov nielen prenosných ochorení, ale aj iných, neprenosných ochorení.

More Related