1 / 25

Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações. Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima pizzato@inf.pucrs.br vera@inf.pucrs.br. Introdução. Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

phila
Download Presentation

Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Desenvolvimento e Avaliação de umaEstrutura Multitesauro para Recuperação de Informações Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima pizzato@inf.pucrs.br vera@inf.pucrs.br CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  2. Introdução Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações • Tesauro • Estrutura Multitesaural • Recuperação de Informações (RI) • Resultados obtidos CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  3. Tesauro? "É uma compilação ordenada de conceitos, com ênfase na associação entre eles, que serve, no campo da informação e da documentação, para indexação e recuperação em um dado domínio documentário" (Ruge, 1999) Caminhoneiro -> Caminhão, Motorista, CargaCobra -> Animal, Réptil, Cobra VenenosaComputador -> Processador, CPU, Processamento CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  4. Relações Semânticas da ISO 2788 • Relação de Equivalência • Sinonímia, Quase-sinonímia, Equivalentes Lexicais • Computação USE Informática • Relações Hierárquicas • Hiponímia (Narrower Term) • Mamífero NT Leão • Hiperonímia (Broader Term) • Leão BT Mamífero • Relações Associativas • Termos Relacionados • Passageiro RT Automóvel CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  5. Multitesauro • LDPUCRS • Lista de descritores da Biblioteca Ir. José Otão – PUCRS; • VCUSP • Vocabulário Controlado da USP – Tesauro em CDROM; • VCBS • Vocabulário Controlado Básico do Senado; • LTOCSS • Tesauro construído automaticamente através do corpus do NILC da “Folha de São Paulo” do ano de 1994. • Relações obtidas por cálculo de similaridade sintática através das técnicas descritas por Grefenstette (1994), adaptadas ao português por Gasperin (2001). CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  6. Características • Tesauros LDPUCRS, VCUSP e VCBS: • São facilmente convertidos para a uma estrutura baseada na ISO 2788; • Apresentam informações que podem podem ser descartadas • Scope Note (Notas de Escopo) são úteis para bibliotecários, mas não aparentam utilidade na RI automática • Tesauro LTOCSS • Como os significados das relações não são conhecidos, elas são associadas à relação RT da ISO 2788. • As relações semânticas apresentam uma medida de similaridade entre os termos. CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  7. ISO 2788 LTOCSS Estrutura Multitesauro <THESAURUS> <TERM term=“Eletroeletrônicos”> <TERM term=“Televisão”> <UF term=“TV”/> <RT term=“Audiência”/> <RT term=“Telespectador” value=“0.99”/> </TERM> <NT term=“Videocassete”/> </TERM> <TERM term=“Videocassete”> <SN>Utilize este termo quando for um aparelho com mídia em fita magnética.</SN> <BT term=“Eletroeletrônicos”/> </TERM> <TERM term=“Audiência”/></THESAURUS> CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  8. Recuperação de Informações • Desenvolvimento de uma Heurística de Expansão de Consultas • Utilizar a estrutura em uma aplicação de RI; • Demonstrar que, através de uma estrutura padrão é possível a utilização conjunta de diferentes tesauros (multitesauro) por uma mesma aplicação. CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  9. Termo C Termo A Termo B Expansão de consulta? • A adição de termos a uma consulta de forma que o conjunto de documentos relevantes encontrados seja maior que o conjunto da consulta original. Documentos Relevantes CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  10. O que é o QET? É uma ferramenta de expansão de consulta (EC) que utiliza tesauros definidos de acordo com uma estrutura padrão. O nome QET é um acrônimo para Query Expansion Tool e a ferramenta teve seu desenvolvimento em Borland Kylix 2 - Open Edition sobre uma plataforma Linux. CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  11. UF (0.8) Automóvel RT RT (0.2) (0.2) Direção Perigosa Acidente de Trânsito Heurística de Expansão de Consultas Relação Semântica com pesos em [0,1) Acidente de Carro β = 0.8 β = 0.16 β = 0.032 < σ (0.1) XXXXXXXXX CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  12. UF (0.8) Automóvel NT (0.6) RT (0.2) Acidente de Trânsito Heurística de Expansão de Consultas Acidente de Carro β = 0.16 β = 0.6 δ = 0.76 > λ (0.7) CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  13. Medidas de avaliação • Precisão: • Recall: • F-Measure: Documentos Relevantes Corpus a c Documentos Recuperados b CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  14. Avaliação • Testes em corpus • Corpus do NILC de artigos diversos da folha de São Paulo do ano de 1994, com 1.323.700 palavras em 5093 artigos. Cada artigo corresponde a um arquivo diferente. • Indexação e consulta aos arquivos realizada pela ferramenta ASPSeek, através de interface Web/CGI. • Verificação manual de relevância. • Geração semi-automática de estatísticas. • Marcação de relevância para 13 assuntos. CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  15. Definição dos pesos para as relações Peso de RT altos diminuem a precisão Peso de BT elevado aumenta o recall mas reduz a precisão CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  16. Recall CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  17. Precisão CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  18. F-Measure CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  19. Avaliação • Médias das 13 consultas CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  20. Considerações • A estrutura tesaural desenvolvida possibilita a utilização conjunta de diferentes tipos de tesauros e demonstrou sua utilidade na RI através do método de expansão de consultas desenvolvido. • O método de expansão apresenta bons resultados (F-Measure) e melhora a RI. CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  21. Trabalhos Futuros • Indexação e recuperação de documentos no QET; • Utilizar outros tipos de tesauros construídos automaticamente; • Descobrir melhores valores para os parâmetros da heurística; CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  22. Foco do estudo • O desenvolvimento da estrutura multitesauro; • A heurística utilizada na expansão de consulta implementada na ferramenta QET. • Uma avaliação da utilização da estrutura na RI. CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  23. Agradecimentos • Artigo/projeto parcialmente suportado pelo convênio DELL/PUCRS • Conselho Nacional de Pesquisa Científica • Departamento Técnico do Sistema Integrado de Bibliotecas da USP • Subsecretaria de Biblioteca do Senado Federal • Biblioteca Ir. José Otão da PUCRS • Núcleo Interinstitucional de Lingüística Computacional CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  24. Referências GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações sintáticas. Dissertação de Mestrado. Faculdade de Informática da Pontifícia Universidade Católica do Rio Grande do Sul. 2001. GREFENSTETTE, Gregory. Explorations in Automatic Thesaurus Discovery. EUA: Kluwer Academic Publishers. 1994. 305 p. ISO 2788. International Organization for Standardization. ISO 2788: Guidelines for the establishment and development of monolingual thesauri. 2nd ed. Geneva: ISO, 1986. RUGE, G. Combining Corpus Linguistics and Human Memory Models for Automatic Term Association. In: STRZALKOWSKI, Tomek. Natural Language Information Retrieval. 1999. p75-98. CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

  25. Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima pizzato@inf.pucrs.br vera@inf.pucrs.brhttp://www.inf.pucrs.br/~pizzato CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002

More Related