280 likes | 390 Views
Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC. Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico. Aluno: Pablo Freire Matos
E N D
Universidade Federal de São Carlos - UFSCarDepartamento de Computação - DCPrograma de Pós-Graduação em Ciência da Computação - PPGCC Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador: Dr. Ricardo Rodrigues Ciferri • Coorientador: Dr. Thiago Alexandre S. Pardo • Área: Banco de Dados
Roteiro WTDBD/SBBD • Introdução • Contexto • Objetivos • Proposta de Dissertação
Roteiro WTDBD/SBBD • Introdução • Contexto • Objetivos • Proposta de Dissertação
Contextualização Grantz (2007) Tan (1999) e Chen (2001) WTDBD/SBBD • Quantidade imensa de informação disponível • Humanos não são capazes de assimilar todo esse conteúdo • Informação via e-mail, blogs, wikis, artigos... • + de 80% das informações estão em formato de texto
Contextualização WTDBD/SBBD • PubMed • + de 18 milhões de artigos (desde 1966) • MEDLINE (área de ciências + biomedicina) • Entrez - Sistema integrado do NCBI • 35 bases com 350 milhões de registros • Sickle Cell Anemia • 15.748 registros do PubMed (citações e resumos) • 3.463 do PubMed Central (artigos completos)
Contextualização WTDBD/SBBD • Infinidade de meios de publicação • American Journal of Hematology, Blood, British Journal of Haematology, Haematologica, The New England Journal of Medicine,… • Leva tempo para • ler e identificar as principais informações do artigo Solução: Mineração de Textos
Objetivos WTDBD/SBBD • Identificar e extrair informações novas, úteis e interessantes em artigos científicos sobre a doença Anemia Falciforme • Foco: efeitos positivos e negativos (do tratamento) • Organização e armazenamento de informação em um BD para posterior mineração
Exemplo de Extração de Termos Regras e Dicionário Aprendizado de Máquina BD Efeito Positivo Reductions in the frequency of chest syndrome and the number of transfusions strengthenthe conclusion that hydroxyurea is a useful agent in sickle cell anemia • she died during the second year of therapy from acute severe anemia during an episode of splenic sequestration Efeito Negativo Outros • in some adolescents poor compliance was evident BD Reductions in the frequency of chest syndrome Reductions in thenumberoftransfusions episode of splenic sequestration WTDBD/SBBD
Roteiro WTDBD/SBBD Introdução Proposta de Dissertação
Processo de MT • É uma das fases mais críticas • Feldman e Sanger (2007) WTDBD/SBBD
Metodologia de Pré-processamento WTDBD/SBBD
Pré-processamento Textual WTDBD/SBBD
Processo Geral de Extração de Informação WTDBD/SBBD
Treinamento Categorização Teste Novo texto TXT • Efeito Positivo Diversos arquivos com sentenças de efeito positivo Efeito Negativo • Anthony e Lashkia (2003) Diversos arquivos com • sentenças de efeito negativo MOVER Classes Precisão de 68% Saída Outros • Conjunto de • sentenças • classificadas • em classes Diversos arquivos com • sentenças de outros WTDBD/SBBD
Sentenças classificadas - Mover WTDBD/SBBD
Análise dos Resultados - Classificação Ganho de 27,01% Ganho de 18,99% WTDBD/SBBD • Taxa de Precisão (P) • Baseline ≤ P ≤ Topline • Baseline:Mover • Topline: Taxa de precisão humana • 50 sentenças (efeito positivo, efeito negativo e outros) • Kappa de 6 anotadores (65,20%)
Considerações Sobre a Classificação • Pré-processamento: 3 classes (Complicação, Benefício e Outro) • Matriz atributo-valor • Frequência mínima = 2 • 1 a 3 gramas • sem stopword e sem stemmer • Eliminar Ruído com J48 • Balanceamento (Bias 1 em Java - Mantém a distribuição das classes) • Seleção de Atributo (Meta) • Ganho de Informação • Classificador • Naive Bayes • Support Vector Machine WTDBD/SBBD
Extração de Informação: Dicionário + Regras reductions in the frequency of chest syndrome and the number of transfusions strengthen the conclusion that hydroxyurea is a useful agent in sickle cell anemia 1 in scd children hydroxyurea has been shown to decrease the rate and the intensity of painful events and the number of days of hospitalization 2 3 hydroxyurea therapy can ameliorate the clinical course of sickle cell anemia in some adults with three or more painful crises per year 4 treatment was also stopped in another patient because of the first occurrence of pathological tcd velocities WTDBD/SBBD Identificar verdadeiro positivo (efeito positivo) Eliminar falso positivo (fator de risco) Elaborar como recuperar falsos negativos
Análise dos Resultados - Extração WTDBD/SBBD Precisão, Revocação e Medida-F (Extração de Informação) Comparação com outros trabalhos
Quatro Experimentos WTDBD/SBBD Regras Regras e Dicionário AM e Regras AM, Regras e Dicionário
Universidade Federal de São Carlos - UFSCarDepartamento de Computação - DCPrograma de Pós-Graduação em Ciência da Computação - PPGCC Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador: Dr. Ricardo Rodrigues Ciferri • Coorientador: Dr. Thiago Alexandre S. Pardo • Área: Banco de Dados Dúvidas?
Cronograma de Atividades Defesa do exame de qualificação Classificação manual (anotadores: 3 médicos e 3 leigos) em três classes de 50 sentenças e cálculo da medida de concordância Kappa Treinamento e teste no classificador Mover de 500 a 1.500 sentenças identificadas manualmente nos artigos. Calcular a acurácia. Desenvolvimento do módulo de extração de efeitos da AF(abordagem baseada em regras e dicionário) Avaliar a extração de informação com as medidas de precisão, revocação e Medida-F Redação e submissão de artigo aos encontros qualificados de Ciência da Computação Concepção e projeto da ferramenta SCAeXtractor, integrando o módulo de classificação e o de extração nesta ferramenta para o processo de extração de informação ser realizado de forma transparente e automática Realização dos quatros testes propostos na análise dos resultados Preparação e defesa da dissertação Possibilitar ao especialista do domínio visualizar e validar o resultado da extração de informação Redação da dissertação de mestrado WTDBD/SBBD
Referências WTDBD/SBBD ANTHONY, L.; LASHKIA, G. V. Mover: a machine learning tool to assist in the reading and writing of technical papers. IEEE Transactions on Professional Communication, v. 46, n. 3, p. 185-193, 2003. ARANHA, C. N. Uma abordagem de pré-processamento automático para mineração de textos em português: sob o enfoque da inteligência computacional. 144 f. Tese (Doutorado em Engenharia Elétrica) – Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2007. BREMER, E. G. et al. Text mining of full text articles and creation of a knowledge base for analysis of microarray data. In: KNOWLEDGE EXPLORATION IN LIFE SCIENCE INFORMATICS (KELSI), 2004, Milan, Italy. Proceedings... 2004. p. 84-95. CHEN, H. Knowledge management systems: a text mining perspective. Tucson, AZ: University of Arizona, 2001. CORNEY, D. P. A. et al. BioRAT: extractingbiologicalinformationfromfull-lengthpapers. Bioinformatics, v. 20, n. 17, p. 3206-3213, 2004.
Referências (cont. 1) WTDBD/SBBD FELDMAN, R.; DAGAN, I. Knowledgediscovery in textual databases (KDT). In: INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING (KDD), 1995, Montréal, Québec. Proceedings...Menlo Park, CA: AAAI Press, 1995. p. 112-117. FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing unstructured data. New York: Cambridge University Press, 2007. 391 p. GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of pharmacogenomic concepts and relationships from full text. BMC Bioinformatics, v. 10, p. S6, 2009. Suppl. 2. GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide information growth through 2010. IDC Whitepaper, 2007. HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College Park, Maryland. Proceedings... Morristown, NJ: Association for Computational Linguistics, 1999. p. 3-10.
Referências (cont. 2) WTDBD/SBBD IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de bases textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2001. MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003. MINISTÉRIO DA SAÚDE. Doença falciforme e outras hemoglobinopatias: anemia falciforme. 2008. NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. PubMed. 2009. Disponívelem: <http://www.ncbi.nlm.nih.gov/pubmed/>. Acessoem: 16 mar. 2009. NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. Entrez, the life sciences search engine. 2009. Disponívelem: <http://www.ncbi.nlm.nih.gov/Entrez/>. Acessoem: 26 mar. 2009. SCHUEMIE, M. J. et al. Distribution of information in biomedical abstracts and full-text publications. Bioinformatics, v. 20, n. 16, p. 2597-2604, 2004.
Referências (cont. 3) WTDBD/SBBD ______. Evaluation of techniques for increasing recall in a dictionary approach to gene and protein name identification. Journal of Biomedical Informatics, v. 40, n. 3, p. 316-324, 2007. TAN, A.-H. Text mining: the state of the art and the challenges. In: KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES (KDAD), 1999, Beijing, China. Proceedings... PAKDD, 1999. p. 71-76. TANABE, L.; WILBUR, W. J. Tagging gene andproteinnames in biomedicaltext. Bioinformatics, v. 18, n. 8, p. 1124-1132, 2002a. ______. Tagging gene andproteinnames in fulltextarticles. In: WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings...Morristown, NJ: Association for ComputationalLinguistics, 2002b. p. 9-13.
Referências Classificação ANTHONY, L.; LASHKIA, G. V. Mover: a machine learning tool to assist in the reading and writing of technical papers. IEEE Transactions on Professional Communication, v. 46, n. 3, p. 185-193, 2003. BURSTEIN, J.; MARCU, D.; KNIGHT, K. Findingthe WRITE stuff: automaticidentification of discoursestructure in studentessays.Intelligent Systems, IEEE, v. 18, n. 1, p. 32-39, 2003. BATISTA, G. E. A. P. A.; PRATI, R. C.; MONARD, M. C. A study of the behavior of several methods for balancing machine learning training data. SIGKDD Explorations Newsletter, v. 6, n. 1, p. 20-29, 2004. HEY, D. F.; FELTRIM, V. D. Uma investigação sobre a aplicação de algoritmos de aprendizado à classificação de papéis retóricos. In: VIII Fórum de Informática e Tecnologia de Maringá, XI Mostra de Trabalhos de Informática, 2008, Maringá. Anais... Universidade Estadual de Maringá, 2008. p. 94-104. WTDBD/SBBD
Referências Classificação (Cont.) WITTEN, I. H.; FRANK, E. Data mining: practical machine learning tools and techniques with Java implementations. 2nd ed. San Francisco, CA: Morgan Kaufmann, 2005. 525 p. WTDBD/SBBD