690 likes | 785 Views
RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES. Alessandro Marinho Silva André Pires Vieira Diego Dainese Polla Sergio Luis da Silva Wilson Witerkosk. RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES. Índice. Introdução Modelos Quantitativos Modelos Dinâmicos
E N D
RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES Alessandro Marinho Silva André Pires Vieira Diego Dainese Polla Sergio Luis da Silva Wilson Witerkosk
RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES Índice • Introdução • Modelos Quantitativos • Modelos Dinâmicos • Recuperação de Informação na Web • Conclusão
RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES INTRODUÇÃO
Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Introdução Recuperação de Informação Recuperação da informação significa a operação pela qual se seleciona documentos, sobre tópicos específicos, a partir do acervo, em função da demanda do usuário. O processo de recuperação de informação consiste em identificar, no conjunto de documentos(corpus) de um sistema, quais atendem à necessidade de informação do usuário.
Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Introdução Sistemas de Recuperação de Informação Os Sistemas de Recuperação de Informação (SRI’s) surgiram da necessidade de se extrair informações em bases de dados não estruturadas, tais como grandes coleções de documentos textuais e bibliográficos. Os SRI’s necessitam de técnicas que agilizam o armazenamento e acesso aos dados.
Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Introdução Sistemas de Recuperação de Informação A recuperação de informação é feita a partir de uma entrada do usuário, ou seja, uma consulta para que os documentos relevantes sejam encontrados. Os SRI’s geralmente se baseiam em Busca por Palavra-Chave ou Busca por Similaridade.
Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Introdução Recuperação de Informação x Mineração de Texto A informatização de diversas áreas trouxe como conseqüência um grande volume de informações sendo armazenadas em bancos de dados. Algumas áreas surgiram para o tratamento de informações textuais, como a Recuperação de Informação e a Mineração de Textos. Ambas utilizam técnicas avançadas para explorar uma grande coleção de dados textuais desestruturados, mas tem propósitos diferentes.
Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Introdução Recuperação de Informação x Mineração de Texto Recuperação de Informação é uma tecnologia utilizada para buscar documentos, focalizando nos dados relacionados a algum tópico específico. A Mineração de Textos, também conhecida como Descoberta de Conhecimento em Textos (KDT), visa encontrar padrões e tendências em um conjunto de documentos, realizar classificação de documentos, ou ainda comparar documentos.
Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Técnicas de RI Conhecimento Coleção de textos Forma Intermediária Mineração Técnicas de EI Introdução Recuperação de Informação x Mineração de Texto Em uma das etapas da Mineração de Textos, utiliza-se técnicas de R.I. Processo de Mineração de Textos (Correa, 2003)
Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Introdução Recuperação de Informação x Mineração de Texto Por se tratar de documentos textuais desestruturados, é necessário um sistema que filtre o conjunto de documentos e indexe as palavras-chave encontradas, as quais identificam o conteúdo dos textos. Essa técnica é chamada de indexação.
Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Introdução Indexação Processo pelo qual as palavras contidas nos textos são armazenadas em uma estrutura de índice para viabilizar a pesquisa de documentos através das palavras que eles contêm.
Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Introdução Indexação Índices invertidos são criados para possibilitar melhoras significativas no desempenho e na funcionalidade da busca. A figura a seguir mostra a utilização de arquivos invertidos para o armazenamento dos termos que identificam os documentos.
Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Introdução Indexação Os termos, ou palavras-chave, são extraídos dos textos e ficam armazenados juntamente com as referências para os respectivos documentos. As buscas usam os índices extraídos dos documentos-texto para comparações com a consulta do usuário. Estrutura de Arquivo Invertido (Correa, 2003)
Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão Introdução Indexação Algumas etapas que constituem o processo de indexação: Análise léxica: etapa para converter uma cadeia de caracteres em uma cadeia de palavras. Remoção de Stop-Words: esta fase tem por objetivo filtrar e retirar as palavras que ocorrem na maioria dos documentos, como artigos, preposições, conjunções e pronomes. Stemming: remove todas as variações (plurais, gerúndios, sufixos) de uma palavra, permanecendo apenas a raiz da palavra.
RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES MODELOS QUANTITATIVOS
Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Modelos Quantitativos A grande maioria dos modelos de RI é de natureza quantitativa: baseados em disciplinas como a lógica, a estatística e a teoria dos conjuntos. Talvez a principal tarefa para os sistemas de RI seja decidir a importância de um termo para a descrição do conteúdo de um documento.
Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Modelos Quantitativos • Os modelos de recuperação quantitativos, aqui abordados, são: • Modelo Booleano • Modelo Vetorial • Modelo Probabilístico
Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Modelo Booleano Baseado na lógica booleana. Considera uma consulta como uma expressão booleana convencional formada com os conectivos lógicos AND, OR e NOT. Sua estratégia de recuperação é baseada no critério de decisão binária. É de vital importância para sistemas de banco de dados (SQL).
Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Modelo Booleano (FERNEDA, 2003)
Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Modelo Vetorial Associa pesos aos termos de indexação e aos termos da expressão de busca. O resultado da utilização destes pesos é a ordenação dos documentos pelo grau de similaridade em relação à expressão de busca. Cada elemento do vetor é normalizado para assumir valores entre 0 e 1. Para o cálculo do peso é considerado o n° de vezes que o termo aparece no documento e o n° de vezes que o termo aparece no corpus de documentos.
Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Modelo Vetorial A representação gráfica de dois documentos: DOC1, com termos de indexação t1 e t3, com pesos 0.3 e 0.5, e DOC2 com termos de indexação t1, t2 e t3, com pesos 0.5, 0.4 e 0.3, dá-se:
Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Modelo Vetorial Se utilizarmos uma expressão de busca eBUSCA=(0.2,0.35,0.1), juntamente com os documentos DOC1 e DOC2, em um espaço vetorial formado pelos termos t1, t2 e t3, teremos a representação gráfica a seguir:
Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Modelo Vetorial Para encontrar o grau de similaridade, calcula-se o co-seno do ângulo entre documentos ou entre consultas e documentos: Onde wi,x é o peso do i-ésimo elemento do vetor x e wi,y é o peso do i-ésimo elemento do vetor y.
Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Modelo Vetorial Assim, o grau de similaridade entre o documento DOC1 e o documento DOC2 é calculado:
Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Modelo Vetorial Portanto, o grau de similaridade entre estes dois documentos é de 73%. Utilizando-se a mesma fórmula é possível encontrar o grau de similaridade entre a expressão eBUSCA com cada um dos documentos DOC1 e DOC2:
Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Modelo Vetorial A expressão eBUSCA possui um grau de similaridade de 45% com o documento DOC1 e de 92% com o documento DOC2. É possível restringir a quantidade de documentos recuperados definindo um limite mínimo para o valor de similaridade. Um limite de 0.5, indica que uma expressão de busca obterá como resultado apenas os documentos cujo valor de similaridade for superior a 50%.
Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Modelo Probabilístico O Modelo Probabilísticorepresenta o processo de recuperação de informação sob um ponto de vista probabilístico, ou seja, calcula a probabilidade de que o documento seja relevante para a consulta.
Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Modelo Probabilístico • Dada uma expressão de busca, podem-se dividir os N documentos de um corpus em quatro subconjuntos: • o conjunto dos documentos relevantes (Rel) • o conjunto dos documentos recuperados (Rec) • o conjunto dos documentos relevantes e recuperados (RR) e • o conjunto dos documentos não relevantes e não recuperados.
Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Modelo Probabilístico O resultado ideal de uma busca é o conjunto que contenham todos e apenas os documentos relevantes para o usuário, isto é, todo o conjunto Rel.
Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Modelo Probabilístico Após obter os resultados da primeira busca, é possível melhorar os resultados através de interações com o usuário. Seja Rel o conjunto de documentos relevantes, e o complemento de Rel, a probabilidade de um documento d ser relevante em relação à expressão de busca é designada por p(Rel|d).
Introdução Modelos Dinâmicos R.I. Na Web Conclusão Modelos Quantitativos Modelo Probabilístico A similaridade (sim) de um documento d em relação à expressão de busca eBUSCA é definida como:
RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES MODELOS DINÂMICOS
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Modelos Dinâmicos Representam um enfoque diferenciado em relação aos modelos quantitativos. Dá ao conjunto de usuários uma participação ativa na representação dos documentos. Seu uso se restringe a pequenos grupos de usuários com interesses comuns.
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Modelos Dinâmicos • Apresentaremos três tipos conhecidos de modelos dinâmicos: • Sistemas Especialistas • Redes Neurais Articifiais • Algoritmos Genéticos
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Sistemas Especialistas É um sistema computacional que procura representar o conhecimento de um especialista humano em um domínio particular, de maneira a auxiliar nas tomadas de decisões e resolução de problemas relacionados a esse domínio. Parte do princípio de que a inteligência não é apenas raciocínio, mas também memória, ou seja, é possuir grande quantidade de informação sobre determinado assunto.
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Sistemas Especialistas São sistemas baseados em conhecimento. Servem como consultores na tomada de decisões em áreas restritas. Permitem representar o conhecimento heurístico na forma de regras obtidas através da experiência e intuição de especialistas de uma área específica.
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Sistemas Especialistas A recuperação de informação é um processo cuja eficiência depende grande parte do conhecimento sobre o assunto. Há dois exemplos de sistemas que utilizam procedimentos típicos dos sistemas especialistas na recuperação de informação.
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Sistemas Especialistas Sistema IOTA Desenvolvido no Laboratoire Génie Informatique de Grenoble. O processo de construção automática da base de conhecimento é realizado através da identificação dos principais conceitos contidos nos textos do conjunto de documentos (corpus).
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Sistemas Especialistas Sistema IOTA Esses conceitos são identificados utilizando-se cálculos estatísticos de co-ocorrência de pares de palavras. Se duas palavras aparecerempróximas em vários documentos do corpus então elas possuem um certo relacionamento.
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Sistemas Especialistas Sistema RUBRIC Rule-Basic Retrieval of Information by Computer O usuário é capaz de construir sua própria base de conhecimento sobre um determinado assunto através da especificação e organização de conceitos na forma de uma rede de frames.
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Sistemas Especialistas Sistema RUBRIC Para cada conceito (frame) o usuário define um conjunto de regras do tipo se...então que caracteriza o conceito. Ex: Se “recuperação” e “informação” então “recuperação de informação” (0.5) Aparecendo as palavras”recuperação” e “informação” no mesmo documento, a probabilidade de se tratar de “recuperação de informação” é de 50%.
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Redes Neurais Artificiais A busca por um modelo artificial que simule o funcionamento das células do cérebro data dos anos 40. Nos anos 80 o entusiasmo nas pesquisas aumentou devido a avanços metodológicos importantes e também graças aos avanços da ciência da computação.
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Redes Neurais Artificiais Uma das propriedades mais importantes de uma rede neural é a capacidade de aprender através de exemplos e fazer inferências sobre o que aprendeu, melhorando gradativamente o seu desempenho.
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Redes Neurais Artificiais De uma forma simplificada, uma rede neural artificial pode ser vista como um grafo onde os nós são os neurônios e as ligações fazem a função das sinapses.
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Redes Neurais Artificiais (FERNEDA, 2003)
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Redes Neurais Artificiais Uma tarefa comum para um sistema de recuperação de informação é pesquisar documentos relevantes que satisfazem uma determinada expressão de busca através dos termos de indexação. Essa organização pode ser comparada a uma estrutura de uma rede neural.
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Redes Neurais Artificiais Saída da rede neural Entrada da rede neural (FERNEDA, 2003)
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Algoritmos Genéticos É um processo repetitivo que mantém uma população de “indivíduos” que representam as possíveis soluções para um determinado problema. A cada geração os indivíduos da população passam por uma avaliação de sua capacidade em oferecer uma solução satisfatória para o problema. Essa avaliação é feita por uma função de adaptação ou função de fitness.
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Algoritmos Genéticos De acordo com essa avaliação alguns indivíduos, selecionados de acordo com uma regra probabilística, passam por um processo de reprodução, gerando uma nova população de possíveis soluções. Pressupõe-se que a população vá gradativamente ficando mais apta para solucionar o problema.
Introdução Modelos Quantitativos R.I. Na Web Conclusão Modelos Dinamicos Algoritmos Genéticos A aplicação dos algoritmos genéticos na recuperação de informação representa um novo modelo para todo o processo de recuperação. As representações dos documentos podem ser vistas como um tipo de um “código genético”.