380 likes | 481 Views
Estrutura Multitesauro para Recuperação de Informações. Luiz Augusto Sangoi Pizzato Dissertação de Mestrado Orientação: Vera Lúcia Strube de Lima. Introdução. Estrutura Multitesauro para Recuperação de Informações Tesauro Recuperação de Informações (RI) Estrutura Multitesauro
E N D
Estrutura Multitesauro para Recuperação de Informações Luiz Augusto Sangoi Pizzato Dissertação de Mestrado Orientação: Vera Lúcia Strube de Lima Porto Alegre, 8 de Janeiro de 2003
Introdução Estrutura Multitesauro para Recuperação de Informações • Tesauro • Recuperação de Informações (RI) • Estrutura Multitesauro • Método para validação da estrutura na RI • Resultados obtidos PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Tesauro? "É uma compilação ordenada de conceitos, com ênfase na associação entre eles, que serve, no campo da informação e da documentação, para indexação e recuperação em um dado domínio documentário" (Ruge, 1999) Caminhoneiro -> Caminhão, Motorista, CargaCobra -> Animal, Réptil, Cobra VenenosaComputador -> Processador, CPU, Processamento PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Relações Semânticas da ISO 2788 • Relação de Equivalência • Sinonímia, Quase-sinonímia, Equivalentes Lexicais • Computação USE Informática • Relações Hierárquicas • Hiponímia (Narrower Term) • Mamífero NT Leão • Hiperonímia (Broader Term) • Leão BT Mamífero • Relações Associativas • Termos Relacionados • Passageiro RT Automóvel PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Recuperação de Informações (RI)? • Problema: Como encontrar os documentos que o usuário necessita? • Pesquisa em base de documentos através de uma consulta de usuário Documentos Relevantes Documentos Encontrados PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
cachorro cachorro canalha cão RI e Linguagem Natural • Documentos e consultas estão em linguagem natural • Linguagem Natural é bastante ambígua PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Termo C Termo A Termo B Expansão de consulta? • A adição de termos a uma consulta de forma que o conjunto de documentos relevantes encontrados seja maior que o conjunto da consulta original. Documentos Relevantes PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Multitesauro • LDPUCRS • Lista de descritores da Biblioteca Ir. José Otão – PUCRS; • VCUSP • Vocabulário Controlado da USP – Tesauro em CDROM; • VCBS • Vocabulário Controlado Básico do Senado; • LTOCSS • Tesauro construído automaticamente através do corpus do NILC da “Folha de São Paulo” do ano de 1994. • Relações obtidas por cálculo de similaridade sintática através das técnicas descritas por Grefenstette (1994), adaptadas ao português por Gasperin (2001). PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Características • Tesauros LDPUCRS, VCUSP e VCBS: • São facilmente convertidos para a uma estrutura baseada na ISO 2788; • Apresentam informações que podem podem ser descartadas • Scope Note (Notas de Escopo) são úteis para bibliotecários, mas não aparentam utilidade na RI automática • Tesauro LTOCSS • Como os significados das relações não são conhecidos, elas são associadas à relação RT da ISO 2788. • As relações semânticas apresentam uma medida de similaridade entre os termos. PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
ISO 2788 LTOCSS Estrutura Multitesauro Inicial <THESAURUS> <TERM term=“Eletroeletrônicos”> <TERM term=“Televisão”> <UF term=“TV”/> <RT term=“Audiência”/> <RT term=“Telespectador” value=“0.99”/> </TERM> <NT term=“Videocassete”/> </TERM> <TERM term=“Videocassete”> <SN>Utilize este termo quando for um aparelho com mídia em fita magnética.</SN> <BT term=“Eletroeletrônicos”/> </TERM> <TERM term=“Audiência”/></THESAURUS> PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Estrutura Multitesauro <THESAURUS> <TERM term=“Eletroeletrônicos”> <TERM term=“Televisão”> <ET term=“TV”/> <RT term=“Audiência”/> <SY term=“Telespectador” value=“0.99”/> </TERM> <NT term=“Videocassete”/> </TERM> <TERM term=“Videocassete”> <BT term=“Eletroeletrônicos”/> </TERM> <TERM term=“Audiência”/> </THESAURUS> PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Estrutura na RI • Desenvolvimento de uma Heurística de Expansão de Consultas • Utilizar a estrutura em uma aplicação de RI; • Demonstrar que, através de uma estrutura padrão é possível a utilização conjunta de diferentes tesauros (multitesauro) por uma mesma aplicação. PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
O que é o QET? É uma ferramenta de expansão de consulta (EC) que utiliza tesauros definidos de acordo com uma estrutura padrão. O nome QET é um acrônimo para Query Expansion Tool e a ferramenta teve seu desenvolvimento em Borland Kylix 2 - Open Edition sobre uma plataforma Linux. PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
UF (0.8) Automóvel RT RT (0.2) (0.2) Direção Perigosa Acidente de Trânsito Heurística de Expansão de Consultas Relação Semântica com pesos em [0,1) Acidente de Carro β = 0.8 β = 0.16 β = 0.032 < σ (0.1) XXXXXXXXX PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
UF (0.8) Automóvel NT (0.6) RT (0.2) Acidente de Trânsito Heurística de Expansão de Consultas Acidente de Carro β = 0.16 β = 0.6 δ = 0.76 > λ (0.7) PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Medidas de avaliação • Precisão: • Abrangência: • Medida-F: Documentos Relevantes Corpus a c Documentos Recuperados b PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Validação • Testes em corpus • Corpus do NILC de artigos diversos da folha de São Paulo do ano de 1994, com 1.323.700 palavras em 5093 artigos. Cada artigo corresponde a um arquivo diferente. • Indexação e consulta aos arquivos realizada pela ferramenta ASPSeek, através de interface Web/CGI. • Verificação manual de relevância. • Geração semi-automática de estatísticas. • Marcação de relevância para 13 assuntos. PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Abrangência PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Precisão PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Medida-F PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Validação • Médias das 13 consultas PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Definição dos pesos para as relações Peso de RT altos diminuem a precisão Peso de BT elevado aumenta o recall mas reduz a precisão PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Definição de λ PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Utilização conjunta de tesauros PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Validação na Internet • Analisados os 50 primeiros documentos retornados pelo portal Alta Vista Brasil para 14 consultas nas formas originais e expandidas • Observou-se duas medidas de relevância: • Documentos Relevantes na RI e na WWW (DRRI e DRWWW) PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Abrangência PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Precisão PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Medida-F PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Médias na Internet • Médias das 14 consultas PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Estimando a Abrangência na Internet • Médias das 14 consultas PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Considerações sobre os resultados • A estrutura tesaural desenvolvida possibilita a utilização conjunta de diferentes tipos de tesauros e demonstrou sua utilidade na RI através do método de expansão de consultas desenvolvido. • O método de expansão apresenta bons resultados (F-Measure) e melhora a RI`em corpus estático. • Descobrir melhores valores para os parâmetros da heurística é um trabalho árduo e deve ser realizado no futuro, para que melhores resultados possam ser obtidos. • Testes na Internet demonstraram que, o acréscimo de termos em um portal de busca acarreta em uma degradação na precisão. Contudo, quando poucos resultados são obtidos na consulta original, sempre é válida a realização da expansão de consulta. PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Trabalhos Relacionados • Sintichakis & Constantopoulus (1997) apresentam um método de efetuar a junção de tesauros monolíngües; • Robin & Ramalho (2001) realizam a expansão de consultas com as relações de sinonímia e hiperonímia da WordNet. • Tudhope et al. (2001) propõem uma técnica para medir a distância semântica entre termos utilizando diferentes pesos para as diferentes relações semânticas. • Mandala et al. (1999) utilizam a WordNet, junto ao tesauro de Roget e outros tesauros gerados automaticamente, na expansão de consultas. PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Trabalhos publicados em eventos PIZZATO, Luiz Augusto Sangoi; STRUBE DE LIMA, Vera Lúcia. Desenvolvimento e Avaliação de uma Estrutura Multitesauro para a Recuperação de Informações. In: XXVIII Conferencia Latinoamericana de Informática (CLEI 2002). Proceedings... . Montevideo, Uruguay.25-29 Novembro 2002. PIZZATO, Luiz Augusto Sangoi; STRUBE DE LIMA, Vera Lúcia. Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações In: XVI Brazilian Symposium on Artificial Intelligence (SBIA'02), I Workshop de Teses e Dissertações em Inteligência Artificial (WTDIA). Proceedings... . Porto de Galinhas, PE, Brazil. 11-14 Novembro 2002. PIZZATO, Luiz Augusto Sangoi; STRUBE DE LIMA, Vera Lúcia. Estrutura Multitesauro para Recuperação de Informações. In: XIII Simpósio Brasileira em Informática na Educação (SBIE'02), Workshop de Ontologias (WONTO). Proceedings... . São Leopoldo, RS, Brazil. 12-14 Novembro 2002. PIZZATO, L. A. S., STRUBE DE LIMA, V.L.. Query Expansion based on Thesaurus Relations: Evaluation over Internet In: CICLing-2003, Computational Linguistics and Intelligent Text Processing, 2003, Cidade do México, México. Lecture Notes in Computer Science N 2588. Berlin, Alemanha: Springer-Verlag, 2003 (a ser publicado) PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Trabalhos Futuros • Indexação e recuperação de documentos no QET; • Utilizar outros tipos de tesauros construídos automaticamente; • Descobrir melhores valores para os parâmetros da heurística; PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Foco do estudo • O desenvolvimento da estrutura multitesauro; • A heurística utilizada na expansão de consulta implementada na ferramenta QET. • Uma avaliação da utilização da estrutura na RI. PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Agradecimentos • Mestrado foi financiado pelo convênio DELL/PUCRS • Conselho Nacional de Pesquisa Científica • Departamento Técnico do Sistema Integrado de Bibliotecas da USP • Subsecretaria de Biblioteca do Senado Federal • Biblioteca Ir. José Otão da PUCRS • Núcleo Interinstitucional de Lingüística Computacional PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Referências GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações sintáticas. Dissertação de Mestrado. Faculdade de Informática da Pontifícia Universidade Católica do Rio Grande do Sul. 2001. ISO 2788. International Organization for Standardization. ISO 2788: Guidelines for the establishment and development of monolingual thesauri. 2nd ed. Geneva: ISO, 1986. MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Complementing wordnet with roget's and corpus-based thesauri for information retrieval. In: 9th Conference Of The European Chapter Of The Association For Computational Linguistics (EACL'99), 1999. Proceedings ... . 1999. p.94-101. MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Combining multiple evidence from dierent types of thesaurus for query expansion. In: 22nd Annual International ACM SIGIR Conference On Research And Development In Information Retrieval, 1999. Proceedings .... ACM Press, 1999. p.191-197. ROBIN, J.; RAMALHO, F. S. Empirically evaluating WordNet-based query expansion in a web search engine setting. In: IR'2001, 2001,Oulu, Finland. Proceedings … . 2001. RUGE, G. Combining Corpus Linguistics and Human Memory Models for Automatic Term Association. In: STRZALKOWSKI, Tomek. Natural Language Information Retrieval. 1999. p75-98. SINTICHAKIS, Marios; CONSTANTOPOULOS, Panos. A method for monolingual thesauri merging. In: 20th International Conference On Research And Development In Information Retrieval, 1997. Proceedings ... . 1997. p.129-138. TUDHOPE, Douglas; ALANI, Harith; JONES, Christopher. Augmenting thesaurus relationships: possibilities for retrieval. Journal of Digital Information, v.1, n.8, Fevereiro 2001. PIZZATO, Luiz Augusto Sangoi - Estrutura Multitesauro para Recuperação de Informações - Dissertação de Mestrado Pontifícia Universidade Católica do Rio Grande do Sul - Porto Alegre, 8 de janeiro de 2003
Estrutura Multitesauro para Recuperação de Informações Luiz Augusto Sangoi Pizzato pizzato@inf.pucrs.br Dissertação de Mestrado Orientação: Vera Lúcia Strube de Lima Porto Alegre, 8 de Janeiro de 2003