Recuperação de Informação Clássica

Recuperação de Informação Clássica Tipos de Consultas & Operações sobre Consultas Caps. 4 e 5 do livro [Baeza-Yates & Ribeiro-Neto 1999] Flávia Barros CIn-UFPE

Fases e Etapas de um Sistemas de RI • Etapas da Fase 1 - Criação da Base de índices • Aquisição (seleção) dos documentos • Preparação dos documentos • Criação da representação dos documentos • Indexação dos documentos • Criação da base de índices invertidos • Etapas da Fase 2 - Consulta à Base de índices • Construção da consulta (query) • Busca (casamento com a consulta do usuário) • Ordenação dos documentos recuperados • Apresentação dos resultados • Feedback de relevância

Roteiro • Tipos de consultas • Operações sobre consultas • Expansão de consultas • Reformulação de consultas • Feedback de relevância CIn-UFPE

Tipos de Consultas • Existem diversos tipos de consultas que podem ser submetidas aos sistemas de RI • Contudo... • Nem todos os tipos podem ser usados em todos os sistemas • Isso vai depender do modelo de RI adotado pelo sistema

Tipos de Consultas • Consultas baseadas em Palavras-Chaves • Baseadas em palavras isoladas • Com contexto • Booleanas • Em Linguagem Natural • Com casamento de Padrão • Com estrutura

Consultas baseadas em Palavras-chave • Tipos • Baseadas em palavras isoladas • Com contexto • Booleanas • Em Linguagem Natural • Permitem ordenamento das respostas • segundo a função de relevância do modelo de RI adotado • Segundo algum outro critério adicional

Consulta baseada em Palavras-chave isoladas • SingleKeyword query • Tipo mais simples de consulta a um sistema de RI • Consiste em uma lista de palavras • Sem operadores booleanos explícitos • Porém funciona como ‘OR’ • Funcionamento geral • O sistema de RI recupera todos os documentos que contêm pelo menos uma das palavras da consulta • Em seguida, os documentos recuperados são ordenados de acordo com o modelo de RI implementado pelo sistema

Consultas com ContextoConsideram a posição das Palavras • Alguns sistemas de RI são capazes de buscar palavras dentro de algum “contexto” • Documentos onde as palavras da consulta aparecem próximas uma da outra podem ser mais relevantes do que aqueles onde as palavras aparecem distantes • Ex.: “recuperação” e “informação” no contexto de docs. sobre o tema de Recuperação de Informação • A consulta também é formulada como uma lista de palavras • Contudo, a ordenação dos documentos depende da posição das palavras nesses documentos

Consultas com ContextoPosição das Palavras • Como verificar essa proximidade? • Depende da implementação do sistema de RI • E.g., Bases de índices invertidos que guardam a posição onde cada palavra ocorre em cada documento

Consultas com Contexto Grupos Nominais • Consultas baseadas em Grupos Nominais (GN) • recuperam documentos com um GN específico • i.e., lista de palavras contíguas no texto do documento • ex., “inteligência artificial” • Pode levar em consideração stopwords e/ou stemming • Exemplo - “venda carro” casa com • “venda de carros” • “vendendo carro”,…

Consultas com Contexto Grupos Nominais • A Base de índices do sistema de RI deve armazenar as posições de cada palavra no documento • Processo de recuperação • Recuperar os documentos que contêm todas as palavras da consulta • Registrando as posições de cada palavra nos docs • Fazer a intersecção entre documentos recuperados • Para eliminar redundâncias • Verificar a ocorrência do GN (palavras contíguas)

Consultas com Contexto Distância máxima permitida • Consulta semelhante a GN, porém • considera a distância máxima permitida entre os termos da consulta • Exemplo: “carro; corrida; 2” • Consulta com os termos “carro” e “corrida” com distância máxima de 2 palavras entre esses termos • Exemplo de doc: “…carro que ganhou a corrida…” • As palavras não precisam estar na mesma ordem em que foram definidas na consulta • Exemplo: “…corrida terminou com carro…” • Pode também levar em conta stemming e/ou stopwords

Consultas com ContextoOrdenação dos Documentos • Documentos que satisfazem uma consulta com Contexto podem ser ordenados da mesma forma que no caso das consultas básicas • i.e., de acordo com o modelo de RI implementado pelo sistema • Para consultas que levam em conta a posição das palavras, a distância entre os termos também pode ser levada em conta para definir a relevância do documento • Ex.: documento com o texto “…corrida de carro…” seria mais relevante que documento com texto “…carro que ganhou a corrida…”

Consultas Booleanas • Palavras combinadas com operadores booleanos: • OR: (ki OR kj ) • AND: (ki AND kj ) • BUT: (ki BUT kj ) • Satisfaz ki but notkj • Em geral, sistemas de RI não usam o operador NOT • Uma vez que um número muito grande de documentos poderia ser recuperado • Operador BUT restringe o universo de documentos • Problema • Usuários inexperientes têm dificuldades com lógica booleana

Consultas BooleanasRecuperação com índices invertidos • Palavra isolada • Recupera documentos contendo essa palavra • OR • Recupera docs. com ki e kj , e faz a união dos resultados • AND • Recupera docs. com ki e kj , e faz a interseção dos resultados • BUT • Recupera docs. com ki e kj , e utiliza o conjunto complementar dos resultados

Consultas em Linguagem Natural • Em geral, consultas de texto completo são consideradas como strings arbitrárias pelos sistemas de RI de propósito geral • Excluímos aqui os sistemas de Pergunta-Resposta, e os sistema de RI com interface em Linguagem Natural • No modelo Espaço Vetorial, essas consultas • São tratadas como um “bag” de palavras • São processadas usando métodos padrão de recuperação com Espaço Vetorial

Casamento de Padrão • Alguns sistemas de RI permitem consultas que “casam” com strings • em lugar de apenas palavras isoladas • Um padrão é descrito por um conjunto de características sintáticas • Padrão simples • ex., uma palavra, um prefixo, um sufixo, etc • Padrão complexo • ex., expressões regulares

Casamento de Padrão • Estamos interessados em documentos que contêm segmentos de texto que casam com o padrão especificado • Isso requer estruturas de dados e algoritmos mais sofisticados do que índices invertidos para uma recuperação eficiente

Casamento de PadrãoPadrões Simples • Prefixos • Padrão que casa com o início da palavra • “anti” casa com “antiguidade”, “anticorpos”, etc. • Sufixos • Padrão que casa com o final da palavra • “ções” casa com “canções”, “infecções”, etc. • Substrings • Padrão que casa seqüências quaisquer de caracteres • “cid” casa com “capacidade”, “genocídio” etc. • Intervalos • Pares de strings que casam com qualquer palavra “alfabeticamente” entre eles • “tin” to “tix” casa com “tipo”, “tiro”, “tísico”, etc.

Casamento de Padrões Simples Tratamento de Erros • Permite a recuperação de documentos com palavras “similares” a uma dada palavra • Caso de consulta ou documentos com erros • Erros de edição, erros de OCR, espaço no meio da palavra, dentre outros • Recupera documentos que são similares até um dado limite, medido por • Distância de edição • Levenstein distance • Subseqüência comum mais longa • Longest Common Subsequence (LCS)

Casamento de Padrões Simples Tratamento de Erros • Distância de edição - Levenstein distance • Número mínimo de caracteres deletados, adicionados ou substituídos necessários para tornar os 2 strings equivalentes • “casamento” para “casmento” tem distância = 1 • “casamento” para “casammentto” tem distância = 2 • “casamento” para “cazammeno” tem distância = 3

Casamento de Padrões Simples Tratamento de Erros • Subseqüência comum mais longa • Computa o tamanho da subseqüência de caracteres mais longa comum aos dois strings • Uma subseqüência de um string é obtida pela eliminação de zero ou mais caracteres • Exemplos: • “casamento” e “asamento” = 8 • “casamento” e “casammentto” = 5

Casamento de Padrões Complexos Expressões Regulares • Linguagem para compor padrões complexos a partir de padrões simples • Um caractere individual é uma expressão regular (ER) • União • Se e1 e e2 são ERs, então (e1 | e2 ) é uma ER que casa com tudo que e1 ou e2 casam • Concatenação • Se e1 e e2 são ERs, então e1 e2 é uma ER que casa com um string que consiste em um substring que casa com e1 imediatamente seguido de um substring que casa e2 • Repetição (Kleene closure): • Se e1 é uma ER, então e1* é uma ER que casa com uma seqüência de zero ou mais strings que casam com e1

Casamento de Padrões Complexos Expressões Regulares • Exemplos de Expressões Regulares • (u|e)nabl(e|ing) casa com • unable • unabling • enable • Enabling • (un|en)*able casa com • able • unable • unenable • enununenable

Consultas com Estrutura • Assumem que o documento possui uma estrutura que pode ser explora na busca • Estruturas hierárquicas em forma de árvore • Conjunto fixo de campos (meta-dados) • e.g. título, autor, resumo, etc. • Permitem consultas por textos que ocorrem em campos específicos: • “inteligência artificial” • aparecendo no título do capítulo livro capítulo capítulo título seção título seção título subseção

Operações sobre as Consultas • Expansão de Consultas • Reformulação de consultas • Feedback de Relevância

Expansão de Consultas • Objetivo: • Adicionar novos termos (correlacionados) à consulta • Motivação • Aumentar a quantidade de documentos recuperados • Cobertura do sistema de RI

Expansão de consultas usando Tesauros • Para cada termo t da consulta, expande a consulta com os sinônimos e palavras relacionadas a t contidos no tesauro • Esse método geralmente aumenta acobertura da recuperação • Recupera mais documentos • Porém, pode diminuir significativamente a precisão • Recuperar documentos irrelevantes • Particularmente para termos ambíguos

Expansão de Consulta com WordNet • WordNet • http://wordnet.princeton.edu/ • Adiciona sinônimos no mesmo synset • Adiciona hipônimos para inserir termos especializados • Adiciona hiperônimos para generalizar uma consulta • Adiciona outros termos relacionados para expandir a consulta

Expansão com Tesauro Estatístico Análise Automática Global • Tesauros produzidos manualmente • são limitados no tipo de relações semânticas que representam • Termos semanticamente relacionados podem ser descobertos a partir de análises estatísticas em um corpus de documentos

Análise Automática Global • Constrói matrizes que “quantificam” associações entre termos • Matriz de associação • Considera a co-ocorrência (ou freqüência comum) dos termos em todos os documentos do corpus • Matriz de correlação métrica • considera a distância entre os termos nos documentos do corpus • as distâncias entre todas as ocorrências desses termos no mesmo documento são contadas, o que indiretamente quantifica a co-ocorrência dos termos • Expande consultas usando os termos mais similares estatisticamente • i.e., com maior associação

Análise Automática Global • Ocultei os slides do cálculo das matrizes de associação e de correlação métrica...

Análise Automática Global Expansão da Consulta • Regra Geral • Para cada termo i da consulta, expanda a consulta com os n termos j com maior valor de cij (correlação) • Mais de um fator de correlação pode ser combinado para escolher os termos para a expansão • Por exemplo, pegar os n maiores termos de ambas as matrizes e fazer a interseção • determinando que termos estão relacionados em ambas as matrizes

Expansão da ConsultaProblemas com a Análise Global • Ambigüidade • pode introduzir termos estatisticamente relacionados que, mesmo assim, são irrelevantes para a consulta • “Apple computer”  “Apple red fruit computer” • apple e red fruit estão relacionados no corpus de docs. • Porém, red fruit não é relevante para a consulta original • Redundância • Uma vez que os termos adicionados são correlacionados aos termos da consulta original, a expansão pode não recuperar muitos documentos adicionais

Expansão da ConsultaAnálise Automática Local • Após a consulta inicial, determina termos correlacionados analisando os m primeiros documentos recuperados • i.e., de melhor ranking • Esta análise se baseia apenas em um conjunto “local” de documentos específico para uma consulta • Evita ambigüidade, uma vez que considera apenas documentos relevantes em um contexto • “Apple computer”  “Apple computer Powerbook laptop”

Análise Global vs. Análise Local • Análise Global • requer computação intensiva off-line • durante a construção da matriz de correlações entre termos • Análise Local • Requer menos computação para cálculo das correlações • Entretanto, esse cálculo é refeito para cada consulta em tempo de execução • Análise local tem gerado melhores resultados experimentais

Expansão de Consultas Conclusões • Expansão de consultas com termos relacionados pode melhorar desempenho do sistema de RI • Particularmente, a cobertura • Contudo, termos similares devem ser escolhidos com cuidado para evitar perda de precisão

Reformulação da consultaFeedback de relevância • Após apresentar os resultados de uma consulta, o sistema de RI pode permitir ao usuário fornecer feedback sobre um ou mais documentos recuperados • Esse feedback pode ser usado para reformular a consulta inicial • Novos resultados serão produzidos com base na consulta reformulada • Processo é interativo e iterativo

Consultainicial Consulta revisada Documentos reordenados 1. Doc1 2. Doc2 3. Doc3 . . 1. Doc2 2. Doc4 3. Doc5 . . 1. Doc1  2. Doc2  3. Doc3  . . Documentos ordenados Reformulação da consulta Feedback Arquitetura para Feedback de Relevância documentos Sistemas de RI Rankings

Feedback de relevânciaRepesagem de Termos • Term reweighting • Objetivo: • Aumentar o peso dos termos que aparecem em documentos relevantes e diminuir o peso de termos que aparecem em documentos irrelevantes • Existem diversos algoritmos para reformular consultas com base em repesagem de pesos

Feedback de relevânciaRepesagem de Termos • Reformulação de consulta para o Modelo Vetorial • Nesse modelo, consultas e documentos são representados como vetores de pesos • Modelo vetorial recupera documentos que são similares à consulta do usuário • Se soubéssemos a priori que documentos são relevantes, saberíamos quais consultas seriam as mais adequadas • As consultas ideais seriam aquelas mais similares aos documentos relevantes no espaço vetorial

Feedback de relevânciaRepesagem de Termos • Reformulação de Consulta para o Modelo Vetorial • Adicione à consulta inicial os vetores dos documentos considerados com relevantes • Subtraia da consulta inicial os vetores dos documentos considerados com irrelevantes • Desta forma, os pesos da consulta são reformulados, aproximando-se dos documentos relevantes

Feedback de relevânciaRepesagem de Termos • Métodos: • Método Rochio Padrão • Método Ide • Método Ide “Dec Hi” • Ocultei os slides porque é muita fórmula……..

Feedback de relevância Repesagem de Termos • Comparação dos Métodos • Todos os métodos, de uma forma geral, melhoram os resultados da RI • Resultados experimentais não indicam uma dominância clara de nenhum método • Geralmente, parâmetros são definidos como constantes iguais a 1 • Alguns autores usam apenas o conjunto dos documentos relevantes (ou seja = 0 ) • Método de Feedback Positivo

Feedback de relevância • Porque Feedback não é largamente usado • Usuários algumas vezes relutam em fornecer feedback explícito • Requer maior tempo de computação • Às vezes, dificulta o entendimento de porque um determinado documento foi recuperado

Pseudo-Feedback • Usa feedback de relevância sem uma entrada explícita do usuário • Apenas assume que os top m documentos recuperados são relevantes, e então reformulam a consulta • É um método de feedback positivo • Melhorou o desempenho de RI no corpus do TREC

Consulta inicial Consulta Reformulada Documentos reordenados 1. Doc1 2. Doc2 3. Doc3 . . 1. Doc2 2. Doc4 3. Doc5 . . 1. Doc1  2. Doc2  3. Doc3  . . Documentos Ordenados Reformulação da consulta Pseudo Feedback Arquitetura de Pseudo-Feedback Corpus de Documentos Sistema RI Rankings

Próxima aula • Construção de bases de índices • Definição das equipes e dos projetos

Recuperação de Informação Clássica

Recuperação de Informação Clássica

Presentation Transcript

ABORDAGEM NEOCLÁSSICA DA ADMINISTRAÇÃO

INFORMÁTICA 1

Paradigmas de Programación

Estrutura

Gestión del Conocimiento

Információbiztonság

Introdução a Programação em Lógica e Prolog

INFORMA CIN ĖS VISUOMENĖS KOMPIUTERIJA

INFORMÁTICA

AUDITORIA INFORMÁTICA PAPELES DE TRABAJO DE CONTROLES GENERALES DE TI`Cs

Seguridad Informática

Aula 10 – 09/05/2013

Seguridad Informática: Estamos seguros ?

La Administración de P royectos en Informática

Introdução à Informática Prof. Roberto Cabral de Mello Borges Instituto de Informática - UFRGS

RASN Informática

C U A D E R N O D E E J E R C I C I O S: A C T I V I D A D 1.

Programación modular

Az információs technológiák a szakszervezetek munkájának összehangolásában

Adatmodellezés, adatbázis-tervezés

Tutorial. UML y Proceso Unificado en Informática Biomédica

INFORMĀCIJAS SISTĒMU METODOLOĢIJAS (DSP404)