130 likes | 241 Views
Z ískávání znalostí z medicínských textů. Petr Kolesa EuroMISE Centrum. Osnova. Systém pro dotazování na interakce a kontraindikace léků Amilcare - nástroj pro information extraction (IE) PDT – nástroj pro zpracování přirozeného jazyka (NLP). Užití ontologie. Práce.
E N D
Získávání znalostí z medicínských textů Petr Kolesa EuroMISE Centrum
Osnova • Systém pro dotazování na interakce a kontraindikace léků • Amilcare - nástroj pro information extraction (IE) • PDT – nástroj pro zpracování přirozeného jazyka (NLP). • Užití ontologie
Práce • Cíl: dotazy nad „databází“ léků • interakce, kontraindikace: je možné pacientovi s diagnózou D1, D2, D3, stavem S1, S2 podat lék L, když užívá léky L1, L2 a L3 • Znalosti získat z příbalových letáků
Formalizace příbalových letáků • Při převodu příbalových letáků do strukturované podoby je třeba, aby se někdo zaručil za správnost převodu. • výhoda – člověk stejně musí projít celý text • je žádoucí použít deep analysis, supervised learning • Člověk transformuje, systém se mu snaží pomáhat.
Ukázka textu • Přípravek se nesmí užívat při zeleném očním zákalu, při neprůchodnosti střev, při ztížené průchodnosti vrátníkem, dále při epilepsii a při deliriích. Přípravek se nesmí užívat současně s inhibitory monoaminooxidázy (některé léky proti depresím), ani 14 dní před zahájením nebo po ukončení jejich užívání. Amiptriptylin nesmí užívat kojící ženy.
AMILCARE • Dosažené výsledky • nízké hodnoty precision (17 %) i recall (14 %) • Pokud trénovací a testovací množina stejná – P: 100 % a R: 81 až 85 % • Jak zlepšit: • Dodat další informace • Provést normalizaci textu
Zpracování přirozeného jazyka • Přidat morfologické informace: lemma, morf. značka (pád, číslo) • Jen lemma: P: 44 %, R: 27 % • Lemma + morf. značka: problém nejednoznačnosti • Učení jen na morf. značkách • Pokud to bude málo, budou dodány informace o povrchové struktuře věty
Normalizace textu • Normalizace: • překlepy, idiosynkratika (mmHg vs mm Hg) • výčtové typy, gazetteers • obecná normalizace na úrovni vět je příliš složitá • Letáky produkované jednou firmou mají stejnou strukturu.
Co s výsledky IE • Vím, kde v textu leží to, co mě zajímá. Co s tím? • Krok od povrchové struktury k tomu, co to znamená (slova → koncept) • Seznam „synonym“, kanonická fráze • navrhne počítač, určí člověk • glaukom: zelený zákal, zelený oční zákal, zelený zákal oční • Mapování konceptů na ontologii
UMLS • Unified Medical Language System • vyvíjí National Library of Medicine • obsahuje několik zdrojových slovníků • ICD-10 (MKN 10) • MeSH • Snomed CT • … • „Cílem UMLS je usnadnit vývoj počítačových systémů, které se chovají tak, jako by rozuměli jazyku biomedicíny.“
UMLS – příklad • Patří diazepam do skupiny léků ovlivňujících CNS?
Použití ontologie • Zdá se, že pro potřeby „léků“ UMLS vyhovuje • Problémy: • mapování čeština angličtina • rozdílné léky v USA a ČR
Dosavadní výsledky • Překvapivě nízká hodnoty precision a recall • Pro potřeby IE je třeba text normalizovat: gazetteers • Obecné NLP nástroje mají vysokou spolehlivost – není třeba vytvářet specializované medical language processing (MLP) nástroje • Mapování na UMLS je obtížné ale možné • Vznikl slovník léků distribuovaných v ČR – používá se při získávaní dat z lékařských zpráv.