320 likes | 566 Views
Extração de Conhecimento na Saúde. Stefan Schulz Universidade Médica de Graz (Áustria). stefan.schulz@medunigraz.at. Universais. Mapa do conhecimento. Indivíduos. Símbolos. instanciação. denotação. "cão", "dog" "cachorro", "canis", Hund" "Marley". "Marley". denotação.
E N D
Extração de Conhecimento na Saúde Stefan Schulz Universidade Médica de Graz (Áustria) stefan.schulz@medunigraz.at
Universais Mapa do conhecimento Indivíduos Símbolos instanciação denotação "cão", "dog" "cachorro", "canis", Hund""Marley" "Marley" denotação C. K. Ogden and I. A. Richards (1923) The Meaning of Meaning
Universais Mapa do conhecimento cães são possíveistransmissores da raiva cães são vertebrados ❺ ❻ Indivíduos Marley é um cachorro "cachorro" e"cão" são sinônimos Símbolos ❹ ❷ instanciação denotação "dog" é um substantivo Marley vivena Flórida ❸ denotação ❶
Conhecimento ontológico:O que é verdade universal Conhecimento contingente:O típico, provável, possível Conhecimento linguístico:Declarações sobre a composição e o significado de signos linguísticos Conhecimento factual:Declarações sobre entidades concretas e suas relações
❶ Extração de informação (c) Averbis GmbH: www.averbis.de
❷ Extração de informação Physical examination on admission revealed purpura of the upper and lower extremities, 419620001 110714004 65124004 {113279002, 426210003} 116223007 91637004 252275004 111583006 767002[68700] 271040006[11.5] 313696224[0.5] 313696667[2.0] 313696009[16.0] 271037006[65.5] 271036002[4.0] 271036013[0.5] 365809007[7.1] 45995003[12] 365632008[91000] 49401003 76197007 14016003 420510009 103213002 53945006 35105006 10828004 16788000 260385009 16788331 16788021 Schulz S, Daumke P, Stenzhorn H, Markó K, Poprat M: Incremental Semantic Enrichment of Narrative Content in Electronic Health Records. World Congress on Medical Physics and Biomedical Engineering, 2009
❷ Extração de informação Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. 419620001 110714004 65124004 {113279002, 426210003} 116223007 91637004 Schulz S, Daumke P, Stenzhorn H, Markó K, Poprat M: Incremental Semantic Enrichment of Narrative Content in Electronic Health Records. World Congress on Medical Physics and Biomedical Engineering, 2009
❷ Extração de informação Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. 419620001 110714004 65124004 {113279002, 426210003} 116223007 91637004 X gingiva gum - product Schulz S, Daumke P, Stenzhorn H, Markó K, Poprat M: Incremental Semantic Enrichment of Narrative Content in Electronic Health Records. World Congress on Medical Physics and Biomedical Engineering, 2009
❷ Extração de informação Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. 419620001 110714004 65124004113279002 116223007 91637004 Schulz S, Daumke P, Stenzhorn H, Markó K, Poprat M: Incremental Semantic Enrichment of Narrative Content in Electronic Health Records. World Congress on Medical Physics and Biomedical Engineering, 2009
❷ Extração de informação Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. 419620001 110714004 65124004113279002 116223007 91637004 252275004 111583006 767002[68700] 271040006[11.5] 313696224[0.5] 313696667[2.0] 313696009[16.0] 271037006[65.5] 271036002[4.0] 271036013[0.5] 365809007[7.1] 45995003[12] 365632008[91000] Schulz S, Daumke P, Stenzhorn H, Markó K, Poprat M: Incremental Semantic Enrichment of Narrative Content in Electronic Health Records. World Congress on Medical Physics and Biomedical Engineering, 2009
❷ Extração de informação Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts 419620001 110714004 65124004113279002 116223007 91637004 252275004 111583006 767002[68700] 271040006[11.5] 313696224[0.5] 313696667[2.0] 313696009[16.0] 271037006[65.5] 271036002[4.0] 271036013[0.5] 365809007[7.1] 45995003[12] 365632008[91000] 49401003 76197007 14016003 420510009 103213002 53945006 35105006 Schulz S, Daumke P, Stenzhorn H, Markó K, Poprat M: Incremental Semantic Enrichment of Narrative Content in Electronic Health Records. World Congress on Medical Physics and Biomedical Engineering, 2009
❷ Extração de informação Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts 419620001 110714004 65124004113279002 116223007 91637004 252275004 111583006 767002[68700] 271040006[11.5] 313696224[0.5] 313696667[2.0] 313696009[16.0] 271037006[65.5] 271036002[4.0] 271036013[0.5] 365809007[7.1] 45995003[12] 365632008[91000] 49401003 76197007 14016003 420510009 103213002 53945006 35105006 Selected context: “on admission” Schulz S, Daumke P, Stenzhorn H, Markó K, Poprat M: Incremental Semantic Enrichment of Narrative Content in Electronic Health Records. World Congress on Medical Physics and Biomedical Engineering, 2009
❷ Extração de informação Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts 419620001 110714004 65124004113279002 116223007 91637004 252275004 111583006 767002[68700] 271040006[11.5] 313696224[0.5] 313696667[2.0] 313696009[16.0] 271037006[65.5] 271036002[4.0] 271036013[0.5] 365809007[7.1] 45995003[12] 365632008[91000] 49401003 76197007 14016003 420510009 103213002 53945006 35105006 Selected context: “on admission” Schulz S, Daumke P, Stenzhorn H, Markó K, Poprat M: Incremental Semantic Enrichment of Narrative Content in Electronic Health Records. World Congress on Medical Physics and Biomedical Engineering, 2009
❷ Extração de informação Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts 419620001 110714004 65124004113279002 116223007 91637004 252275004 111583006 767002[68700] 271040006[11.5] 313696224[0.5] 313696667[2.0] 313696009[16.0] 271037006[65.5] 271036002[4.0] 271036013[0.5] 365809007[7.1] 45995003[12] 365632008[91000] 49401003 76197007 14016003 420510009 103213002 53945006 35105006 Selected context: “negation” Schulz S, Daumke P, Stenzhorn H, Markó K, Poprat M: Incremental Semantic Enrichment of Narrative Content in Electronic Health Records. World Congress on Medical Physics and Biomedical Engineering, 2009
❷ Extração de informação Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts ADM{419620001 110714004 65124004113279002 NEG{116223007 91637004 252275004 111583006} 767002[68700] 271040006[11.5] 313696224[0.5] 313696667[2.0] 313696009[16.0] 271037006[65.5] 271036002[4.0] 271036013[0.5] 365809007[7.1] 45995003[12] 365632008[91000] } 49401003 76197007 14016003 420510009 103213002 53945006 35105006 Schulz S, Daumke P, Stenzhorn H, Markó K, Poprat M: Incremental Semantic Enrichment of Narrative Content in Electronic Health Records. World Congress on Medical Physics and Biomedical Engineering, 2009
Conhecimento ontológico:O que é verdade universal Conhecimento contingente:O típico, provável, possível Conhecimento linguístico:Declarações sobre a composição e o significado de signos linguísticos Conhecimento factual:Declarações sobre entidades concretas e suas relações
❸ Conhecimento linguístico: etiquetação POS http://cogcomp.cs.illinois.edu/
❹ Conhecimento linguístico: extração de definição de acrônimos • Padrões para extrair definições de um corpus S < B < I < S S < B < I < S Sánchez D. & Isern D. Automatic extraction of acronym definitions from the Web. Appl Intell (2011) 34: 311–327
Conhecimento ontológico:O que é verdade universal Conhecimento contingente:O típico, provável, possível Conhecimento linguístico:Declarações sobre a composição e o significado de signos linguísticos Conhecimento factual:Declarações sobre entidades concretas e suas relações
❺ Extração de relações taxonômicas • Padrões lexico-semânticos Hearst: AGE-binding protein injury mental illness subclass-of subclass-of subclass-of GAL-1 fracture schizophrenia Marti A. Hearst. Automatic acquisition of hyponyms from large text corpora. In Proceedings of the Fourteenth International Conference on Computational Linguistics, pages 539--545, Nantes, France, July 1992.
❺ Extração de outras relações • Validação de axiomas SNOMED CT por mineração da WWW • Expressão de busca :"Gastritis is an inflammation of" Kreuzthaler M, Schulz S. Metonymies in medical terminologies. A SNOMED CT case study. AMIA Annu Symp Proc. 2012;2012:463-46.
Conhecimento ontológico:O que é verdade universal Conhecimento contingente:O típico, provável, possível Conhecimento linguístico:Declarações sobre a composição e o significado de signos linguísticos Conhecimento factual:Declarações sobre entidades concretas e suas relações
❻ Extração de conhecimento contingente (não ontológico) de bancos de dados • Fonte: MEDLINE • metadados • mais de 23 milhões de registros bibliográficos • descritores MeSH atribuídos manualmente • Destino: • triplos (Sujeito, Predicado, Objeto) • representando declarações plausíveis no domínio biomédico, Exemplos:
BioTxtM2014 – Fourth Workshop on Building and Evaluating Resources for Health and Biomedical Text Processing Análise de co-ocorrências Stefan Schulz, Catalina Martínez Costa, Markus Kreuzthaler, Jose A. Miñarro-Giménez, Ulrich Andersen, Anders B. Jensen, Bente Maegaard qualifica o conceito fonte, por exemplo:DT = "drug therapy"PC = "prevention and control"CO = "complication"
Extração de predicados segundo a análise de MeSH "subheadings" Exemplo: a pontuação mais alta do qualificador " TU" ("uso terapêutico") em um conceito MeSH do tipo "Substância" permite induzir o predicado "treats" com Disease como objeto ; uma alta pontuação do qualificador "PC" sugere "prevents" Object Subject
Resultados Resultados: Testes para os predicados “treats” e“prevents”. Resultados prometedores, porém requerendo mais refinamento. • Perspectivas: usar aprendizagem automática usando padrões. Publicação como Linked Data. Casos de uso possíveis: sistemas perguntas / respostas, expansão de consultas, apoio à decisão, base de dados para aplicações PLN Stefan Schulz et al. Semantic Relation Discovery by using Co-occurrence Information. Fourth Workshop on Building and Evaluating Resources for Health and Biomedical Text Processing, LREC 2014, Reykjavik.
Universais Mapa do conhecimento Discussão / Perspectivas Extração de conhecimento de fontes estruturadas e não-estruturadas Padrões e algoritmos de extração de conhecimento de texto livre relativamente simples e sem novidade Indivíduos Símbolos Big data minimiza o problema do recall. Critérios podem ser mais rígidos Experiência do IBM Watson mostrou o valor de paralelizar múltiplas abordagens diferentes Mesmo assim, 100% acurácia não realista. Prometedor: construção de conhecimento combinando big data extração com crowdsourcing
Obrigado! stefan.schulz@medunigraz.at