1 / 40

Recuperação de Informação

Recuperação de Informação. Exemplos de Aplicações Flávia Barros. Roteiro. Exemplos de Sistemas de RI Aplicações, agentes, serviços na Web Áreas de pesquisa e desenvolvimento relacionadas. Tarefa típica de Recuperação de Informação (RI). Dados Um corpus de documentos (itens de dados) &

irisa
Download Presentation

Recuperação de Informação

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Recuperação de Informação Exemplos de Aplicações Flávia Barros CIn-UFPE

  2. Roteiro • Exemplos de Sistemas de RI • Aplicações, agentes, serviços na Web • Áreas de pesquisa e desenvolvimento relacionadas CIn-UFPE

  3. Tarefa típica de Recuperação de Informação (RI) • Dados • Um corpus de documentos (itens de dados) & • Uma consulta do usuário • geralmente representada por palavras-chave • Encontrar • Um conjunto ordenados de documentos que são relevantes para a consulta CIn-UFPE

  4. Sistemas de RI Etapas principais • Aquisição (seleção) dos documentos • Manual ou automática • Preparação dos documentos • Criação da sua representação • Indexação dos documentos • Na maioria dos casos, construção da base de índices invertidos • Busca e recuperação • casamento da consulta do usuário com os índices na base • recuperação dos documentos selecionados • Ordenação dos documentos recuperados • de acordo com alguma função de relevância CIn-UFPE

  5. Aplicações, Serviços, Agentes... • Sistemas de Automação de Bibliotecas • Primeira aplicação na área de RI • Atualmente, a tendência são as bibliotecas digitais • RI + BD • Engenhos de Busca na Web • Google, Yahoo!, etc... CIn-UFPE

  6. Aplicações, Serviços, Agentes... • Sistemas que fazem mais do que simples RI • Sistemas de meta-busca • Na Web ou em BDs • Sistemas de Pergunta-resposta • Sistemas de Recuperação multi-língua • Sistemas de Extração de Informação • Extraem, de documentos relevantes, apenas a informação requerida CIn-UFPE

  7. Aplicações, Serviços, Agentes... • Sistemas que fazem mais do que simples RI • Sistemas de Recomendação • Recomendam de itens de informação ao usuário de acordo com o seu perfil • Sistemas de classificação automática de documentos • categorização/clustering de documentos • Sistemas de mineração de dados/informação • Sistemas de gerenciamento de documentos CIn-UFPE

  8. Aplicações, Serviços, Agentes... • Sistemas que fazem mais do que simples RI • Agentes de filtragem de informação • E.g., filtragem de spam • Agentes Notificadores • Enviam emails para o usuário de acordo com seus interesses • Agentes de Comércio Eletrônico • Capazes de representar o usuário em compras na Web • Agentes Chatterbots • Capazes de dialogar com os usuários em linguagem natural restrita CIn-UFPE

  9. Bibliotecas Digitais • Projeto LIBER • Mantém uma base de teses e dissertações produzidas na UFPE • http://www.virtus.ufpe.br/liber • Documentos indexados por metadados • Autor, titulo, palavras-chave, resumo • Citeseer • Scientific Literature Digital Library • http://citeseer.ist.psu.edu/ CIn-UFPE

  10. Engenhos de Busca na Web • Indexam os documentos na Web • Aquisição automática de documentos • Através do uso de spiders • robôs de indexação que varrem a Web em busca de novos documentos • Busca em largura e/ou profundidade a partir de um dado site • Preparação dos documentos • Até onde eu sei, indexam o documento inteiro • Não eliminam termos irrelevantes • Podem explorar o layout do documento HTML quando determinam o peso dos termos na representação do documento CIn-UFPE

  11. Engenhos de busca na Web • Busca e recuperação • Utilizam bases de índices invertidos • Modelo espaço vetorial??? • Ordenação dos documentos recuperados • de acordo com alguma função de relevância • Co-seno??? • Alguns problemas com a Web • Taxa de atualização MUITO alta • Falta de estrutura padrão nos documentos • Alguns problemas com os engenhos de busca • Baixa precisão na recuperação de documentos • “Information overload” CIn-UFPE

  12. Engenho de Busca Usuário Servidor de Consultas 2 Base de Índices Consulta 1 Recuperador Browser Resposta 4 3 Ordenador Motor de Indexação Indexador Representação dos Docs Spider Docs Pré-Processador Web Aquisição Engenhos de Busca

  13. Sistemas para recuperação de documentos similares • Engenhos de busca • São robustos e gerais • Porém, muitas vezes retornam uma quantidade muito grande de documentos irrelevantes • Sistemas de recuperação de documentos similares ao que o usurário está acessando • E.g. GoogleToolbar, Alexa, Kenjin • Problemas: • Lidam apenas com documentos em HTML (GoogleToolbar, Alexa) • O documento do usuário deve estar indexado previamente (GoogleToolbar, Alexa) • Baixa precisão (Kenjin) CIn-UFPE

  14. Active SearchSistema de meta busca • Sistema para recuperação de documentos similares em repositórios digitais • Recupera documentos similares ao que o usuário esta acessando/editando • Processo de recuperação é online e baseado no conteúdo do documento • Utiliza o modelo Espaço Vetorial • Lidam com diferentes tipos de documentos • HTML, doc • Plataformas: • Internet Explorer e Microsoft Word • Projeto financiado pela Lei de Informática • Juliano Rabelo, Eduardo Amaral, Fred Brito, Eu, Gustavo de Paula, Geber... CIn-UFPE

  15. Web Active Search - Arquitetura Current Doc’s Internal Representation Meta-search Document Pre-Processor Query Preparation Doc’s Content Application1 Documents Bases Query Doc. Post-Processor Docs Searcher Docs’ Pointers Docs Retriever Application2 Interface LAN Docs’ Content Local Directories Ordered List of Docs Docs’ Internal Representation Application3 Pointers to Documents Docs Reorderer User’s Profile Profile Manager Relevant Documents

  16. Active Search - Protótipo • Busa documentos similares • ao que está sendo acessado/editado • a uma parte do documento selecionada com drag-and-drop Starts a search from the active document System configuration Last results cache Similarity percentage to the current doc Keyword search

  17. Sistemas de Pergunta-Resposta • Recuperação de Informação + Processamento de Linguagem Natural • Recebem como entrada uma pergunta em linguagem natural • Retornam como saída a resposta (curta) ao invés de uma lista de documentos • Utilizando também técnicas de Extração de Informação • Exemplo: • P: Qual o melhor time de futebol do Brasil? • R: Santa Cruz Futebol Clube CIn-UFPE

  18. Sistemas de Pergunta-RespostaArquitetura Genérica CIn-UFPE

  19. Sistemas de Pergunta-Resposta na Web • Motivação • A Web é o maior repositório de informações já construído • Necessidade de informação melhor representada sob forma de pergunta • Tecnologias (de RI) existentes são inadequadas • Negligenciam a semântica da pergunta e dos documentos • Sistema Pergunte! • Uma interface em Português para pergunta-resposta na Web • não existem sistemas de PR na Web para o Português • Mestrado de Juliano Rabelo, 2004 CIn-UFPE

  20. BD Sistemas de Extração de Informação • Sistemas capazes de extrair de documentos relevantes apenas a informação requerida • A informação extraída pode ser apresentada ao usuário e/ou armazenada em BDs ou BCs. Página de Hotel Template Nome: End.: Fone: Fax: Preços: Sistema de EI BC CIn-UFPE

  21. Some Country Codes Congo - 242 Egypt - 20 Belize - 501 Spain - 34 • Uno 97, 4p., Ar, Dir, VE, Som, Prata • Gol 16V, ano 94, Ar, 2 portas, Al. • Corsa 92, c/ 2 portas, Alarme, Rodas Estudantes caras-pintadas protestaram, ontem, no Centro de São Paulo exigindo o impeachment do prefeito Celso Pitta, acusado de corrupção por sua ex-mulher. Técnicas para Extração de Informação • A escolha da técnica utilizada depende do tipo de texto a ser tratado - PLN Textos livres ou não estruturados • - Wrappers • Textos estruturados • Textos semi-estruturados • A localização da informação no texto é sempre feita por meio de regras CIn-UFPE

  22. Wrappers • As regras de extração são criadas com base na estrutura do texto e no conhecimento do domínio • Construídos de maneira ad-hoc • Não existe uma arquitetura consensual • Modos de Construção • Manual • técnica simples, boa precisão, porém requer grande esforço de programação • Semi-Automático • tempo de construção reduzido, ineficiente para gerar regras mais robustas • Automático • nenhuma programação requerida, porém apresenta baixa precisão e requer esforço para anotação do corpus CIn-UFPE

  23. A.V.Garcia and A. Haeberer. An Architecture for Semantically Based Code Migration. In Proc. of the II Brazilian Symposium on Progr. Languages, pp 179-192, Sept/1997, Campinas, Brasil. Autor: A.V.Garcia and A. Haeberer Título: An Architecture for Semantically Based Code Migration Veículo: In Proc. of the II Brazilian Symp. on Progr. Languages Páginas: pp 179-192 Data: Sept/1997 Local: Campinas, Brasil O ProdExt • ProdExt: Um Wrapper para extração de referências bibliográficas a partir de páginas eletrônicas • Mestrado de Carla Nunes, 2000 • Abordagem utilizada • Construção manual de base de regras CIn-UFPE

  24. ProdExt Base de Conhecimento Dicionário de Termos do Domínio Conjunto de Regras Módulo Extrator Configurador/ Adaptador P a r s e r Autor Título Veículo ... Blocos Docum. HTML Árvore HTML BD Arquitetura do ProdExt CIn-UFPE

  25. EI utilizando Aprendizagem de MáquinaMestrado de Eduardo Amaral CIn-UFPE

  26. Integração de Informação • Pergunta-resposta + Extração de informação • Objetivo • Integrar automaticamente diversos Web sites • para responder a determinadas perguntas do usuário cuja resposta não está disponível em um site único • Para cada site secionado, um wrapper é construído • Os dados extraídos de cada site podem ser tratados como tabelas de bancos de dados • que podem ser consultadas usando-se uma query language (e.g. SQL). CIn-UFPE

  27. Sistemas de Personalização • São sistemas que buscam adaptar-se às preferências e necessidade individuais de cada usuário • Utilizam profiles • Sistemas de personalização incluem: • Recomendação • Filtragem • Predição CIn-UFPE

  28. Sistemas de Recomendação • São sistemas que recomendam itens para usuários com base em suas preferências • Itens: livros, filmes, CDs, páginas web, mensagens de newsgroup • Exemplos de sistemas • Lojas virtuais oferecem esse serviço para aumentar as vendas • e.g. Amazon, CDNow • Projeto GEP (Guia de Entretenimento Virtual) • Equipe: Francisco,Geber,Ivan, Byron, Sérgio, etc • Existem duas abordagens básicas par recomendação: • Filtragem colaborativa (um tipo de filtragem social) • Recomendação baseada em conteúdo CIn-UFPE

  29. Filtragem Colaborativa • Essa técnica mantém um BD de itens a serem recomendados • E as avaliações dos usuários do sistemas para cada um desses itens • Dado um usuário, o sistema • busca os usuários com perfil similar ao dele • e recomenda a esse usuário os itens que • não foram ainda avaliados por ele, • porém foram bem avaliados pelos usuários similares a ele • A maioria dos sistemas comerciais utiliza essa abordagem • e.g. Amazon CIn-UFPE

  30. Recomendação baseada em conteúdo • Aqui, a recomendação é baseada no conteúdo • nas características dos itens • e não mais na opinião de outros usuários • Utiliza algoritmos de aprendizagem de máquina para induzir um profile das preferências dos usuários CIn-UFPE

  31. Usuário Servidor News Artigos Indexados Perfil do usuário Engenho de Busca Internet Filtragem de Informação • Sistemas que filtram a informação recuperada de acordo com o interesse do usuário

  32. Classificação de Texto • Objetivo • Classificar documentos de acordo com um conjunto ou hierarquia de categorias • Algumas aplicações: • Páginas Web • Recomendação • Hierarquias de classes como a do Yahoo para facilitar busca • Criação de repositórios de domínio específico • Mensagens de Newsgroups • Recomendação • Filtragem de spam CIn-UFPE

  33. Classificação de Texto • Algumas aplicações: • Notícias • Jornal personalizado • Mensagem de Email • Filtragem de spam • Routing • Atribuição de prioridades • Seleção de folders CIn-UFPE

  34. Classificação de Texto • Abordagens: • Classificação manual por especialistas • Construção manual de classificadores • sistemas baseados em conhecimento • Construção automática de classificadores • árvores de decisão, indução de regras,aprendizagem bayesiana, redes neurais, aprendizagem baseada em instâncias, etc. CIn-UFPE

  35. Sistema CitationFinder • Classificação automática de páginas de publicações • Mestrado de Mariana Lara Neves, 2001 • Objetivo • Criação e manutenção de um repositório de documentos desse domínio • Para alimentar o sistema Prodext • Construção manual: • Bases de conhecimento com regras de produção • Máquina de inferência (JEOPS) CIn-UFPE

  36. Busca por palavras-chave do domínio Web Engenhos de Busca tradicionais CitationFinder URLs recuperadas Base de Índices Específica Consulta URLs classificadas positivamente Sistema CitationFinder Plug-in para engenhos de busca CIn-UFPE

  37. Agentes Chatterbots • Chatterbots • Sistemas capazes de dialogar com os usuários em linguagem natural restrita • E.g., Eliza, ALICE • Utilizam técnicas de armazenagem e recuperação muito semelhantes aos sistemas de Pergunta-resposta • Esses agentes também podem ser usados como interfaces em linguagem natural para • Bancos de dados • Bases de conhecimento • Sites na web CIn-UFPE

  38. Agentes Chatterbots • Exemplo de bot na Web - Pixel • http://www.virtus.ufpe.br/pixel • Tese de doutorado de André Neves • Utiliza a linguagem AILM • Criação de novas tags para descrever o nível pragmático dos diálogos com chatterbots CIn-UFPE

  39. Algumas Áreas relacionadas a RI • Bancos de dados • Uso de XML na descrição dos dados • Ciência da informação • Biblioteconomia • Bibliotecas digitais • Inteligência artificial • Ontologias na web e sistemas inteligentes de RI • Aprendizagem de máquina • Classificação e clustering de documentos, criação e manutenção de profiles, extração de informação, mineração de texto, etc.. • Processamento de linguagem natural - a seguir CIn-UFPE

  40. Processamento de Linguagem Natural • Algumas regiões de interseção • Métodos para determinar o significado de termos e palavras dependendo do contexto • word sense disambiguation • Extração de informação • Sistemas Pergunta-resposta • E mais os métodos de processamento de documentos já vistas CIn-UFPE

More Related