400 likes | 524 Views
Recuperação de Informação. Exemplos de Aplicações Flávia Barros. Roteiro. Exemplos de Sistemas de RI Aplicações, agentes, serviços na Web Áreas de pesquisa e desenvolvimento relacionadas. Tarefa típica de Recuperação de Informação (RI). Dados Um corpus de documentos (itens de dados) &
E N D
Recuperação de Informação Exemplos de Aplicações Flávia Barros CIn-UFPE
Roteiro • Exemplos de Sistemas de RI • Aplicações, agentes, serviços na Web • Áreas de pesquisa e desenvolvimento relacionadas CIn-UFPE
Tarefa típica de Recuperação de Informação (RI) • Dados • Um corpus de documentos (itens de dados) & • Uma consulta do usuário • geralmente representada por palavras-chave • Encontrar • Um conjunto ordenados de documentos que são relevantes para a consulta CIn-UFPE
Sistemas de RI Etapas principais • Aquisição (seleção) dos documentos • Manual ou automática • Preparação dos documentos • Criação da sua representação • Indexação dos documentos • Na maioria dos casos, construção da base de índices invertidos • Busca e recuperação • casamento da consulta do usuário com os índices na base • recuperação dos documentos selecionados • Ordenação dos documentos recuperados • de acordo com alguma função de relevância CIn-UFPE
Aplicações, Serviços, Agentes... • Sistemas de Automação de Bibliotecas • Primeira aplicação na área de RI • Atualmente, a tendência são as bibliotecas digitais • RI + BD • Engenhos de Busca na Web • Google, Yahoo!, etc... CIn-UFPE
Aplicações, Serviços, Agentes... • Sistemas que fazem mais do que simples RI • Sistemas de meta-busca • Na Web ou em BDs • Sistemas de Pergunta-resposta • Sistemas de Recuperação multi-língua • Sistemas de Extração de Informação • Extraem, de documentos relevantes, apenas a informação requerida CIn-UFPE
Aplicações, Serviços, Agentes... • Sistemas que fazem mais do que simples RI • Sistemas de Recomendação • Recomendam de itens de informação ao usuário de acordo com o seu perfil • Sistemas de classificação automática de documentos • categorização/clustering de documentos • Sistemas de mineração de dados/informação • Sistemas de gerenciamento de documentos CIn-UFPE
Aplicações, Serviços, Agentes... • Sistemas que fazem mais do que simples RI • Agentes de filtragem de informação • E.g., filtragem de spam • Agentes Notificadores • Enviam emails para o usuário de acordo com seus interesses • Agentes de Comércio Eletrônico • Capazes de representar o usuário em compras na Web • Agentes Chatterbots • Capazes de dialogar com os usuários em linguagem natural restrita CIn-UFPE
Bibliotecas Digitais • Projeto LIBER • Mantém uma base de teses e dissertações produzidas na UFPE • http://www.virtus.ufpe.br/liber • Documentos indexados por metadados • Autor, titulo, palavras-chave, resumo • Citeseer • Scientific Literature Digital Library • http://citeseer.ist.psu.edu/ CIn-UFPE
Engenhos de Busca na Web • Indexam os documentos na Web • Aquisição automática de documentos • Através do uso de spiders • robôs de indexação que varrem a Web em busca de novos documentos • Busca em largura e/ou profundidade a partir de um dado site • Preparação dos documentos • Até onde eu sei, indexam o documento inteiro • Não eliminam termos irrelevantes • Podem explorar o layout do documento HTML quando determinam o peso dos termos na representação do documento CIn-UFPE
Engenhos de busca na Web • Busca e recuperação • Utilizam bases de índices invertidos • Modelo espaço vetorial??? • Ordenação dos documentos recuperados • de acordo com alguma função de relevância • Co-seno??? • Alguns problemas com a Web • Taxa de atualização MUITO alta • Falta de estrutura padrão nos documentos • Alguns problemas com os engenhos de busca • Baixa precisão na recuperação de documentos • “Information overload” CIn-UFPE
Engenho de Busca Usuário Servidor de Consultas 2 Base de Índices Consulta 1 Recuperador Browser Resposta 4 3 Ordenador Motor de Indexação Indexador Representação dos Docs Spider Docs Pré-Processador Web Aquisição Engenhos de Busca
Sistemas para recuperação de documentos similares • Engenhos de busca • São robustos e gerais • Porém, muitas vezes retornam uma quantidade muito grande de documentos irrelevantes • Sistemas de recuperação de documentos similares ao que o usurário está acessando • E.g. GoogleToolbar, Alexa, Kenjin • Problemas: • Lidam apenas com documentos em HTML (GoogleToolbar, Alexa) • O documento do usuário deve estar indexado previamente (GoogleToolbar, Alexa) • Baixa precisão (Kenjin) CIn-UFPE
Active SearchSistema de meta busca • Sistema para recuperação de documentos similares em repositórios digitais • Recupera documentos similares ao que o usuário esta acessando/editando • Processo de recuperação é online e baseado no conteúdo do documento • Utiliza o modelo Espaço Vetorial • Lidam com diferentes tipos de documentos • HTML, doc • Plataformas: • Internet Explorer e Microsoft Word • Projeto financiado pela Lei de Informática • Juliano Rabelo, Eduardo Amaral, Fred Brito, Eu, Gustavo de Paula, Geber... CIn-UFPE
Web Active Search - Arquitetura Current Doc’s Internal Representation Meta-search Document Pre-Processor Query Preparation Doc’s Content Application1 Documents Bases Query Doc. Post-Processor Docs Searcher Docs’ Pointers Docs Retriever Application2 Interface LAN Docs’ Content Local Directories Ordered List of Docs Docs’ Internal Representation Application3 Pointers to Documents Docs Reorderer User’s Profile Profile Manager Relevant Documents
Active Search - Protótipo • Busa documentos similares • ao que está sendo acessado/editado • a uma parte do documento selecionada com drag-and-drop Starts a search from the active document System configuration Last results cache Similarity percentage to the current doc Keyword search
Sistemas de Pergunta-Resposta • Recuperação de Informação + Processamento de Linguagem Natural • Recebem como entrada uma pergunta em linguagem natural • Retornam como saída a resposta (curta) ao invés de uma lista de documentos • Utilizando também técnicas de Extração de Informação • Exemplo: • P: Qual o melhor time de futebol do Brasil? • R: Santa Cruz Futebol Clube CIn-UFPE
Sistemas de Pergunta-Resposta na Web • Motivação • A Web é o maior repositório de informações já construído • Necessidade de informação melhor representada sob forma de pergunta • Tecnologias (de RI) existentes são inadequadas • Negligenciam a semântica da pergunta e dos documentos • Sistema Pergunte! • Uma interface em Português para pergunta-resposta na Web • não existem sistemas de PR na Web para o Português • Mestrado de Juliano Rabelo, 2004 CIn-UFPE
BD Sistemas de Extração de Informação • Sistemas capazes de extrair de documentos relevantes apenas a informação requerida • A informação extraída pode ser apresentada ao usuário e/ou armazenada em BDs ou BCs. Página de Hotel Template Nome: End.: Fone: Fax: Preços: Sistema de EI BC CIn-UFPE
Some Country Codes Congo - 242 Egypt - 20 Belize - 501 Spain - 34 • Uno 97, 4p., Ar, Dir, VE, Som, Prata • Gol 16V, ano 94, Ar, 2 portas, Al. • Corsa 92, c/ 2 portas, Alarme, Rodas Estudantes caras-pintadas protestaram, ontem, no Centro de São Paulo exigindo o impeachment do prefeito Celso Pitta, acusado de corrupção por sua ex-mulher. Técnicas para Extração de Informação • A escolha da técnica utilizada depende do tipo de texto a ser tratado - PLN Textos livres ou não estruturados • - Wrappers • Textos estruturados • Textos semi-estruturados • A localização da informação no texto é sempre feita por meio de regras CIn-UFPE
Wrappers • As regras de extração são criadas com base na estrutura do texto e no conhecimento do domínio • Construídos de maneira ad-hoc • Não existe uma arquitetura consensual • Modos de Construção • Manual • técnica simples, boa precisão, porém requer grande esforço de programação • Semi-Automático • tempo de construção reduzido, ineficiente para gerar regras mais robustas • Automático • nenhuma programação requerida, porém apresenta baixa precisão e requer esforço para anotação do corpus CIn-UFPE
A.V.Garcia and A. Haeberer. An Architecture for Semantically Based Code Migration. In Proc. of the II Brazilian Symposium on Progr. Languages, pp 179-192, Sept/1997, Campinas, Brasil. Autor: A.V.Garcia and A. Haeberer Título: An Architecture for Semantically Based Code Migration Veículo: In Proc. of the II Brazilian Symp. on Progr. Languages Páginas: pp 179-192 Data: Sept/1997 Local: Campinas, Brasil O ProdExt • ProdExt: Um Wrapper para extração de referências bibliográficas a partir de páginas eletrônicas • Mestrado de Carla Nunes, 2000 • Abordagem utilizada • Construção manual de base de regras CIn-UFPE
ProdExt Base de Conhecimento Dicionário de Termos do Domínio Conjunto de Regras Módulo Extrator Configurador/ Adaptador P a r s e r Autor Título Veículo ... Blocos Docum. HTML Árvore HTML BD Arquitetura do ProdExt CIn-UFPE
EI utilizando Aprendizagem de MáquinaMestrado de Eduardo Amaral CIn-UFPE
Integração de Informação • Pergunta-resposta + Extração de informação • Objetivo • Integrar automaticamente diversos Web sites • para responder a determinadas perguntas do usuário cuja resposta não está disponível em um site único • Para cada site secionado, um wrapper é construído • Os dados extraídos de cada site podem ser tratados como tabelas de bancos de dados • que podem ser consultadas usando-se uma query language (e.g. SQL). CIn-UFPE
Sistemas de Personalização • São sistemas que buscam adaptar-se às preferências e necessidade individuais de cada usuário • Utilizam profiles • Sistemas de personalização incluem: • Recomendação • Filtragem • Predição CIn-UFPE
Sistemas de Recomendação • São sistemas que recomendam itens para usuários com base em suas preferências • Itens: livros, filmes, CDs, páginas web, mensagens de newsgroup • Exemplos de sistemas • Lojas virtuais oferecem esse serviço para aumentar as vendas • e.g. Amazon, CDNow • Projeto GEP (Guia de Entretenimento Virtual) • Equipe: Francisco,Geber,Ivan, Byron, Sérgio, etc • Existem duas abordagens básicas par recomendação: • Filtragem colaborativa (um tipo de filtragem social) • Recomendação baseada em conteúdo CIn-UFPE
Filtragem Colaborativa • Essa técnica mantém um BD de itens a serem recomendados • E as avaliações dos usuários do sistemas para cada um desses itens • Dado um usuário, o sistema • busca os usuários com perfil similar ao dele • e recomenda a esse usuário os itens que • não foram ainda avaliados por ele, • porém foram bem avaliados pelos usuários similares a ele • A maioria dos sistemas comerciais utiliza essa abordagem • e.g. Amazon CIn-UFPE
Recomendação baseada em conteúdo • Aqui, a recomendação é baseada no conteúdo • nas características dos itens • e não mais na opinião de outros usuários • Utiliza algoritmos de aprendizagem de máquina para induzir um profile das preferências dos usuários CIn-UFPE
Usuário Servidor News Artigos Indexados Perfil do usuário Engenho de Busca Internet Filtragem de Informação • Sistemas que filtram a informação recuperada de acordo com o interesse do usuário
Classificação de Texto • Objetivo • Classificar documentos de acordo com um conjunto ou hierarquia de categorias • Algumas aplicações: • Páginas Web • Recomendação • Hierarquias de classes como a do Yahoo para facilitar busca • Criação de repositórios de domínio específico • Mensagens de Newsgroups • Recomendação • Filtragem de spam CIn-UFPE
Classificação de Texto • Algumas aplicações: • Notícias • Jornal personalizado • Mensagem de Email • Filtragem de spam • Routing • Atribuição de prioridades • Seleção de folders CIn-UFPE
Classificação de Texto • Abordagens: • Classificação manual por especialistas • Construção manual de classificadores • sistemas baseados em conhecimento • Construção automática de classificadores • árvores de decisão, indução de regras,aprendizagem bayesiana, redes neurais, aprendizagem baseada em instâncias, etc. CIn-UFPE
Sistema CitationFinder • Classificação automática de páginas de publicações • Mestrado de Mariana Lara Neves, 2001 • Objetivo • Criação e manutenção de um repositório de documentos desse domínio • Para alimentar o sistema Prodext • Construção manual: • Bases de conhecimento com regras de produção • Máquina de inferência (JEOPS) CIn-UFPE
Busca por palavras-chave do domínio Web Engenhos de Busca tradicionais CitationFinder URLs recuperadas Base de Índices Específica Consulta URLs classificadas positivamente Sistema CitationFinder Plug-in para engenhos de busca CIn-UFPE
Agentes Chatterbots • Chatterbots • Sistemas capazes de dialogar com os usuários em linguagem natural restrita • E.g., Eliza, ALICE • Utilizam técnicas de armazenagem e recuperação muito semelhantes aos sistemas de Pergunta-resposta • Esses agentes também podem ser usados como interfaces em linguagem natural para • Bancos de dados • Bases de conhecimento • Sites na web CIn-UFPE
Agentes Chatterbots • Exemplo de bot na Web - Pixel • http://www.virtus.ufpe.br/pixel • Tese de doutorado de André Neves • Utiliza a linguagem AILM • Criação de novas tags para descrever o nível pragmático dos diálogos com chatterbots CIn-UFPE
Algumas Áreas relacionadas a RI • Bancos de dados • Uso de XML na descrição dos dados • Ciência da informação • Biblioteconomia • Bibliotecas digitais • Inteligência artificial • Ontologias na web e sistemas inteligentes de RI • Aprendizagem de máquina • Classificação e clustering de documentos, criação e manutenção de profiles, extração de informação, mineração de texto, etc.. • Processamento de linguagem natural - a seguir CIn-UFPE
Processamento de Linguagem Natural • Algumas regiões de interseção • Métodos para determinar o significado de termos e palavras dependendo do contexto • word sense disambiguation • Extração de informação • Sistemas Pergunta-resposta • E mais os métodos de processamento de documentos já vistas CIn-UFPE