1 / 25

Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník

Bc. Július Pál Vedúci práce: RNDr. Tomáš Horváth, PhD. Konzultant: MUDr. Dušan Béreš, MPH. Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník. Ústav informatiky, Prírodovedecká fakulta, UPJŠ. Úvod. Charakteristika základného problému

saxon
Download Presentation

Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bc. Július Pál Vedúci práce: RNDr. Tomáš Horváth, PhD. Konzultant: MUDr. Dušan Béreš, MPH. Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník Ústav informatiky, Prírodovedecká fakulta, UPJŠ

  2. Úvod • Charakteristika základného problému • Metodika ako sa bude robiť analýza dát • Popis už existujúcich metód predikcie • Návrh používateľského rozhrania implementácie

  3. Charakteristika základného problému

  4. Charakteristika základného problému • Predmetom mojej diplomovej práce je riešiť proces šírenia nákazy, konkrétne vírusových žltačiek typu A • Základné pojmy Čo je vírusová hepatitída typu A? Čo je proces šírenia nákazy? Hepatitída typu A je prenosné ochorenie spôsobená vírusom hepatitídy typu A  pre ktoré je charakteristická fekálne-orálna cesta prenosu pôvodcu nákazu. Hlavným symptómom je akútny zápal pečene (hepatitída). Proces šírenia nákazy je epidemický proces - je to sústavný výskyt toho istého ochorenia v určitej skupine ľudí, v určitom čase ( spravidla dvojnásobok maximálneho inkubačného času ) a v určitom priestore.

  5. Charakteristika základného problému • Inkubačný čas – je čas od vniknutia mikroorganizmu do vnímavého jedinca (makroorganizmu) po objavenie sa prvých príznakov ochorenia. U rôznych ochorení je rôzne dlhý. Pre vírusovú hepitídu typu A toto móže trvať od 15 dní(minimálný inkubačný čas) až do 50 dní(maximálny inkubačný čas).

  6. Charakteristika základného problému • Pre zabezpečenie epidemického procesu šírenia nákazy,musia byť splnené 3 podmienky: • Prítomnosť prameňa pôvodu nákazy • Cesta prenosu pôvodcu nákazy • Prítomnosť vnímavého jedinca alebo populácie

  7. Charakteristika základného problému • Pre prameň pôvodu nákazy rozoznávame dve základné formy prejavu infekcie: • manifestná – zjavná s klinickými príznakmi ochorenia (v prípade VHA teplota, nevoľnosť, zvracanie,žlté skléry, tmavá moč...) • inaparentná – bezpríznaková, latentná, skrytá bez zjavných klinických príznakov (dá sa dokázať iba na základe laboratórnych vyšetrení) • Frekvencia výskytu manifestných ochorení stúpa vekom čím výšší vek tým vačšia je manifestnosť ochorenia, čím nižší vek tým vyššia je skrytá forma ochorenia, teda vačšia pravdepodobnosť neodhalenia prameňa pôvodcu nákazy a výskytu epidéme .

  8. Charakteristika základného problému • Cesta prenosu nákazy je fekálne-orálna a u človeka sa uskutočnuje prostredníctvom faktorov prenosu nákazy. Medzi faktory nákazy zaradujeme • Vodu • Potraviny •  kontakt. • Pôvodca nákazy sa do organizmu dostáva cez zažívací trakt. Faktorov prenosu pôvodcov nákazy môže byť veľké množstvo a môžu byť v rôznych kombináciách, ktoré závažne ovplyvňujú proces šírenia nákazy.

  9. Charakteristika základného problému • Vnímavosť na VHA, • je v nepriamej súvislosti s vekom to znamená čím vyšší je vek tým nižšia je vnímavosť. • závisí aj od rôznych komunít pričom je ovplyvňovaná predchádzajúcou intenzitou cirkulácie vírusu v týchto komunitách. • možeme tiež ovplyvnovať aktívnou respektívne pasívnou imunizáciou. • v globále o stave vnímavosti informujú údaje z imunologických prehľadov, ktoré vykonáva rezort zdravotníctva spravidla v desatročných intervaloch. Imunologické prehľady udávajú proporciu osôb s protektívnou hladinou protilátok proti VHA v sledovaných vekových skupinách.

  10. Charakteristika základného problému • Z hľadiska potrieb definovania určitých zákonitostí v procese šírenia VHA v zvolenom časovom intervale respektívne v skupine ľudí je potrebné najskôr vykonať analýzu časovej rady a hľadania matematického modelu šírenia nákazy v čase. • V čom to spočíva? Analýza spočíva v rozklade časovej rady, na: • Zmeny trendu – vyjadrené trendovou krivkou • Cyklické zmeny – zmeny prejavujúce sa v cykloch trvajúcich niekoľko rokov • Sezónne zmeny – zmeny prejavujúce sa zmenou chorobnosti v závislosti od sezón priebehu roka • Náhodné zmeny – zmeny, ktoré je ťažko identifikovať a pri ktorých je potrebné hľadať súvislosti ( data mining). Náhodné zmeny svojim pôvodom ale aj dôsledkami môžu ovplyvnovať predchádzajúce tri typy časovej rady.

  11. Charakteristika základného problému • Zameraním mojej práce je identifikovať príčiny, uvedených náhodných zmien výskytu VHA, na Slovensku resp. v okrese Rimavská Sobota hľadať a identifikovať súvislosti medzi výskytom a možnými príčinami za dostupných dát registra prenosných ochorení, ktorý vedie RÚVZ v Banskej Bystrici. • Z uvedeného súboru záznamov VHA z predchádzajúceho obdobia(20 rokov) pre potrebu analýzy náhodných zmien odporúčam vylúčiť záznami poradickými výskytom, a zamerať sa na prípady s epidemickým výskytom. • Okrem predpokladaných rizikových faktorov ako sú vek, spôsob zásobovania pitnou vodou, úroveň osobnej hygieny, stav imunity vnímavosti je predpoklad že náhodné zmeny vznikajú aj ako následok, iných príčin resp. tieto potencujú už uvedené príčiny.

  12. Metodika ako sa bude robiť analýza dát

  13. Metodika ako sa bude robiť analýza dát • Identifikovať analýzu rozkladu časovej rady • Modelovanie • Vykonanie datamining dát z registra VHA • Všetkých údajov • Epidemiologických faktorov • Identifikacia rizikových vztahov

  14. Metodika ako sa bude robiť analýza dát • Ciele: • Vyhľadanie matematického modelu pre šírenie VHA na Slovensku s možnosťou predikcie • Vyhľadanie zatiaľ skrytých faktorov, ktoré ovplyvňujú proces širenia nákazy data-mining technikami • Špecifikácia neznámych zmien v oblasti časových rád VHA • Vyhľadanie matematického modelu pre proces šírenia nákazy pre šírenie epidémie

  15. Popis už existujúcich metód predikcie

  16. Popis už existujúcich metód predikcie • Model SIR - Kermackův – Mc Kendrickův model [1] • Jednoduchý cellulárnýautomat • Rozhodovací strom pre predikciu VHC a HIV použitím data-mining techník • Analýza časových radov

  17. Model SIR • Model SIR • Pretento model sapredpokládá , že v danej uzavretej populáciio N jedincoch sav danomčasovomokamžikut nachádza • S(t) zatiaľzdravých, vnímavýchjedincov • I(t)infikovaných, aktívnechorobuprenášajúcichosôb • R(t) osôb, kterýchorobunemajúa súodolní protinákaze - zvýšenouimunitou, izolácioualebo smrťou.

  18. Model SIR • Ďalejsa predpokladá: • nákaza je prenášaná kontaktom medzi infikovaným a zdravým jedincom, ktorý nie je voči tejto nákaze imunní. Tento jedinec sa nazývá vnímavým jedincom. • Nákaza savyvíjaihneďpoinfikujúcom kontaktevšetciinfikovaníjedincimôžus rovnakou pravdepodobnosťoupreniesť nákazu, takisto akovšetcivnímavíjedincimôžu túto nákazudostať s rovnakoupravdepodobnosťou. • Populácia je homogénna- všetci ohrozeníjedincisúrovnako ohrozenía všetci infikovanísúrovnakoinfekčnía pravdepodobnosť stretnutia akýchkoľvekdvochjedincov v populáciije rovnaká • populáciamákonštantnúveľkosť - nepredpokladámeaninarodenienovýchjedincov, animigráciu a všetcimŕtvy súzahrnutí do skupinyosôb R(t), ktoríuž nákazu absolvovali

  19. SIR model • Podmienkuuzavretosti a konečnostipopulácie možmevyjadriťvzťahom: • S(t) +I(t) + R(t) = N = konst. • Dostaneme sústavu trochdiferenciálnychrovníc : • S′(t) = −αI(t)S(t) • I′(t) = αS(t)I(t)− βI(t), • R′(t) = βI(t), ktoráje známapod názvom Kermackův – McKendrickův model. kdeα je koeficientšírenianákazy a koeficientβ predstavujepomerpočtu infikovanýchjedincov, ktorí prejdúdo imúnnejskupiny. S(t) I(t) R(t) α β

  20. SIR model • Z rovnicepredynamikuinfikovanýchjedincovplynie, žestavtejto kategórie rastie aleboklesá • I’(t)|t= 0 = I0.(α.S0 - β) <> 0 v závislostinahodnotevýrazu v zátvorke S0 <> β/ α= p

  21. Cellulárný automat ako jednoduchý dynamický systém •  U CA sastretávame s dvoma možnýmiprístupmy k riešeniu • Poprvémáme CA pravidlo a chcemepredpovedaťjehochovaniea taktiežajpotenciálnevyužitie • Po druhé sajedná o obrátenýproblém, keď vieme, aképožiadavkynanáš CA kladerealita a hľadámeodpovedajúcepravidlo. V oboch prípadoch ideo ťažko řešitelnýproblém.

  22. Cellulárny automat • CA automat je reprezentovaný A=(Ld, S, N, f) • Ldje cellularny priestor • S je mnozina stavov • N je mnozina susedov bunky N=(S1, S2, S3, …,Sn) • f je funkcia prechodu stavu S do Sn. • fd

  23. Cellulárny automat

  24. Návrh používateľského rozhrania implementácie

  25. Návrh používateľského rozhrania implementácie • Našou implematáciou bude vytvoriť softvér na základe modelu, ktorý pre konkrétnu populáciu vypočíta mieru stanovených rizík jednotlivých faktorov, ktoré ovplyvňujú proces šírenia nákazy. Vhodnou impementáciou softvéru by sme mali byť schopný, určiť vznik a výskyt epidémie konkrétneho ochorenia v danom čase a v danom mieste

More Related