250 likes | 353 Views
Bc. Július Pál Vedúci práce: RNDr. Tomáš Horváth, PhD. Konzultant: MUDr. Dušan Béreš, MPH. Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník. Ústav informatiky, Prírodovedecká fakulta, UPJŠ. Úvod. Charakteristika základného problému
E N D
Bc. Július Pál Vedúci práce: RNDr. Tomáš Horváth, PhD. Konzultant: MUDr. Dušan Béreš, MPH. Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník Ústav informatiky, Prírodovedecká fakulta, UPJŠ
Úvod • Charakteristika základného problému • Metodika ako sa bude robiť analýza dát • Popis už existujúcich metód predikcie • Návrh používateľského rozhrania implementácie
Charakteristika základného problému • Predmetom mojej diplomovej práce je riešiť proces šírenia nákazy, konkrétne vírusových žltačiek typu A • Základné pojmy Čo je vírusová hepatitída typu A? Čo je proces šírenia nákazy? Hepatitída typu A je prenosné ochorenie spôsobená vírusom hepatitídy typu A pre ktoré je charakteristická fekálne-orálna cesta prenosu pôvodcu nákazu. Hlavným symptómom je akútny zápal pečene (hepatitída). Proces šírenia nákazy je epidemický proces - je to sústavný výskyt toho istého ochorenia v určitej skupine ľudí, v určitom čase ( spravidla dvojnásobok maximálneho inkubačného času ) a v určitom priestore.
Charakteristika základného problému • Inkubačný čas – je čas od vniknutia mikroorganizmu do vnímavého jedinca (makroorganizmu) po objavenie sa prvých príznakov ochorenia. U rôznych ochorení je rôzne dlhý. Pre vírusovú hepitídu typu A toto móže trvať od 15 dní(minimálný inkubačný čas) až do 50 dní(maximálny inkubačný čas).
Charakteristika základného problému • Pre zabezpečenie epidemického procesu šírenia nákazy,musia byť splnené 3 podmienky: • Prítomnosť prameňa pôvodu nákazy • Cesta prenosu pôvodcu nákazy • Prítomnosť vnímavého jedinca alebo populácie
Charakteristika základného problému • Pre prameň pôvodu nákazy rozoznávame dve základné formy prejavu infekcie: • manifestná – zjavná s klinickými príznakmi ochorenia (v prípade VHA teplota, nevoľnosť, zvracanie,žlté skléry, tmavá moč...) • inaparentná – bezpríznaková, latentná, skrytá bez zjavných klinických príznakov (dá sa dokázať iba na základe laboratórnych vyšetrení) • Frekvencia výskytu manifestných ochorení stúpa vekom čím výšší vek tým vačšia je manifestnosť ochorenia, čím nižší vek tým vyššia je skrytá forma ochorenia, teda vačšia pravdepodobnosť neodhalenia prameňa pôvodcu nákazy a výskytu epidéme .
Charakteristika základného problému • Cesta prenosu nákazy je fekálne-orálna a u človeka sa uskutočnuje prostredníctvom faktorov prenosu nákazy. Medzi faktory nákazy zaradujeme • Vodu • Potraviny • kontakt. • Pôvodca nákazy sa do organizmu dostáva cez zažívací trakt. Faktorov prenosu pôvodcov nákazy môže byť veľké množstvo a môžu byť v rôznych kombináciách, ktoré závažne ovplyvňujú proces šírenia nákazy.
Charakteristika základného problému • Vnímavosť na VHA, • je v nepriamej súvislosti s vekom to znamená čím vyšší je vek tým nižšia je vnímavosť. • závisí aj od rôznych komunít pričom je ovplyvňovaná predchádzajúcou intenzitou cirkulácie vírusu v týchto komunitách. • možeme tiež ovplyvnovať aktívnou respektívne pasívnou imunizáciou. • v globále o stave vnímavosti informujú údaje z imunologických prehľadov, ktoré vykonáva rezort zdravotníctva spravidla v desatročných intervaloch. Imunologické prehľady udávajú proporciu osôb s protektívnou hladinou protilátok proti VHA v sledovaných vekových skupinách.
Charakteristika základného problému • Z hľadiska potrieb definovania určitých zákonitostí v procese šírenia VHA v zvolenom časovom intervale respektívne v skupine ľudí je potrebné najskôr vykonať analýzu časovej rady a hľadania matematického modelu šírenia nákazy v čase. • V čom to spočíva? Analýza spočíva v rozklade časovej rady, na: • Zmeny trendu – vyjadrené trendovou krivkou • Cyklické zmeny – zmeny prejavujúce sa v cykloch trvajúcich niekoľko rokov • Sezónne zmeny – zmeny prejavujúce sa zmenou chorobnosti v závislosti od sezón priebehu roka • Náhodné zmeny – zmeny, ktoré je ťažko identifikovať a pri ktorých je potrebné hľadať súvislosti ( data mining). Náhodné zmeny svojim pôvodom ale aj dôsledkami môžu ovplyvnovať predchádzajúce tri typy časovej rady.
Charakteristika základného problému • Zameraním mojej práce je identifikovať príčiny, uvedených náhodných zmien výskytu VHA, na Slovensku resp. v okrese Rimavská Sobota hľadať a identifikovať súvislosti medzi výskytom a možnými príčinami za dostupných dát registra prenosných ochorení, ktorý vedie RÚVZ v Banskej Bystrici. • Z uvedeného súboru záznamov VHA z predchádzajúceho obdobia(20 rokov) pre potrebu analýzy náhodných zmien odporúčam vylúčiť záznami poradickými výskytom, a zamerať sa na prípady s epidemickým výskytom. • Okrem predpokladaných rizikových faktorov ako sú vek, spôsob zásobovania pitnou vodou, úroveň osobnej hygieny, stav imunity vnímavosti je predpoklad že náhodné zmeny vznikajú aj ako následok, iných príčin resp. tieto potencujú už uvedené príčiny.
Metodika ako sa bude robiť analýza dát • Identifikovať analýzu rozkladu časovej rady • Modelovanie • Vykonanie datamining dát z registra VHA • Všetkých údajov • Epidemiologických faktorov • Identifikacia rizikových vztahov
Metodika ako sa bude robiť analýza dát • Ciele: • Vyhľadanie matematického modelu pre šírenie VHA na Slovensku s možnosťou predikcie • Vyhľadanie zatiaľ skrytých faktorov, ktoré ovplyvňujú proces širenia nákazy data-mining technikami • Špecifikácia neznámych zmien v oblasti časových rád VHA • Vyhľadanie matematického modelu pre proces šírenia nákazy pre šírenie epidémie
Popis už existujúcich metód predikcie • Model SIR - Kermackův – Mc Kendrickův model [1] • Jednoduchý cellulárnýautomat • Rozhodovací strom pre predikciu VHC a HIV použitím data-mining techník • Analýza časových radov
Model SIR • Model SIR • Pretento model sapredpokládá , že v danej uzavretej populáciio N jedincoch sav danomčasovomokamžikut nachádza • S(t) zatiaľzdravých, vnímavýchjedincov • I(t)infikovaných, aktívnechorobuprenášajúcichosôb • R(t) osôb, kterýchorobunemajúa súodolní protinákaze - zvýšenouimunitou, izolácioualebo smrťou.
Model SIR • Ďalejsa predpokladá: • nákaza je prenášaná kontaktom medzi infikovaným a zdravým jedincom, ktorý nie je voči tejto nákaze imunní. Tento jedinec sa nazývá vnímavým jedincom. • Nákaza savyvíjaihneďpoinfikujúcom kontaktevšetciinfikovaníjedincimôžus rovnakou pravdepodobnosťoupreniesť nákazu, takisto akovšetcivnímavíjedincimôžu túto nákazudostať s rovnakoupravdepodobnosťou. • Populácia je homogénna- všetci ohrozeníjedincisúrovnako ohrozenía všetci infikovanísúrovnakoinfekčnía pravdepodobnosť stretnutia akýchkoľvekdvochjedincov v populáciije rovnaká • populáciamákonštantnúveľkosť - nepredpokladámeaninarodenienovýchjedincov, animigráciu a všetcimŕtvy súzahrnutí do skupinyosôb R(t), ktoríuž nákazu absolvovali
SIR model • Podmienkuuzavretosti a konečnostipopulácie možmevyjadriťvzťahom: • S(t) +I(t) + R(t) = N = konst. • Dostaneme sústavu trochdiferenciálnychrovníc : • S′(t) = −αI(t)S(t) • I′(t) = αS(t)I(t)− βI(t), • R′(t) = βI(t), ktoráje známapod názvom Kermackův – McKendrickův model. kdeα je koeficientšírenianákazy a koeficientβ predstavujepomerpočtu infikovanýchjedincov, ktorí prejdúdo imúnnejskupiny. S(t) I(t) R(t) α β
SIR model • Z rovnicepredynamikuinfikovanýchjedincovplynie, žestavtejto kategórie rastie aleboklesá • I’(t)|t= 0 = I0.(α.S0 - β) <> 0 v závislostinahodnotevýrazu v zátvorke S0 <> β/ α= p
Cellulárný automat ako jednoduchý dynamický systém • U CA sastretávame s dvoma možnýmiprístupmy k riešeniu • Poprvémáme CA pravidlo a chcemepredpovedaťjehochovaniea taktiežajpotenciálnevyužitie • Po druhé sajedná o obrátenýproblém, keď vieme, aképožiadavkynanáš CA kladerealita a hľadámeodpovedajúcepravidlo. V oboch prípadoch ideo ťažko řešitelnýproblém.
Cellulárny automat • CA automat je reprezentovaný A=(Ld, S, N, f) • Ldje cellularny priestor • S je mnozina stavov • N je mnozina susedov bunky N=(S1, S2, S3, …,Sn) • f je funkcia prechodu stavu S do Sn. • fd
Návrh používateľského rozhrania implementácie • Našou implematáciou bude vytvoriť softvér na základe modelu, ktorý pre konkrétnu populáciu vypočíta mieru stanovených rizík jednotlivých faktorov, ktoré ovplyvňujú proces šírenia nákazy. Vhodnou impementáciou softvéru by sme mali byť schopný, určiť vznik a výskyt epidémie konkrétneho ochorenia v danom čase a v danom mieste