1 / 23

Arquivo Invertido

Arquivo Invertido. Grupo:Danilo de Carvalho Gleimar B. Baleeiro Rodrigo Duarte. Roteiro. Motivação Introdução Arquivo Invertido Tipos de Consultas Métodos Tecnologia. Motivação. Como recuperar informação?

seth
Download Presentation

Arquivo Invertido

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Arquivo Invertido Grupo:Danilo de Carvalho Gleimar B. Baleeiro Rodrigo Duarte

  2. Roteiro • Motivação • Introdução • Arquivo Invertido • Tipos de Consultas • Métodos • Tecnologia

  3. Motivação • Como recuperar informação? • Aumento do volume de dados armazenados na forma de textos. Ex.:bibliotecas digitais • Buscas seqüenciais atenderiam ao propósito?

  4. Motivação • A construção de uma estrutura de dados(índices) diminuiria o tempo de resposta na busca. • De que modo poderia se recuperar esses textos?

  5. Introdução • O que é Índice? - Mecanismo utilizado para localizar um dado termo em um texto(custo < linear). • Tipo de Índices - Arquivos Invertidos (inverted files) - Arquivos de Assinatura (singature files) - Mapas de Bits (bitmaps)

  6. Arquivo Invertido • Composição: - Vocabulário : Arranjo contendo todas as palavras do texto. - Ocorrências: Lista de todos os documentos (identificados por números) nos quais uma palavra ocorre.

  7. Exemplo

  8. Exemplo

  9. Consultas • Termo único: Busca no vocabulário e recupera a lista de ocorrências. • Conjunção: “termo AND termo” • Disjunção: “termo OR termo” • Negação: “NOT “

  10. Métodos para construção de Índices • Matriz de Freqüência - Cada linha corresponde a um documento e cada coluna corresponde a um termo do vocabulário

  11. Exemplo

  12. Construção • É necessário a leitura do documento da coleção, ao final escrever a matriz, linha por linha no disco. • Construção é bastante simples. • Entretanto a solução é cara. -Ex.:Bíblia contém 8.965 termos e 31.101 documento. Tamanho da matriz (8.965 X 31.101 X 4 bytes = 1GB

  13. Métodos para construção de Índices • Inversão em Memória - O índice é todo construído em memória principal. - Estrutura usada para armazenamento será a tabela hash.

  14. ... continuação - Listas encadeadas em memória para armazenar as listas invertidas dos termos. - O método leva cerca de 6 horas para indexar uma coleção de 5GB e consome 4GB de memória principal e nenhum espaço extra em disco.

  15. Algoritmo 1. /*Inicialização*/ Crie uma estrutura de dicionário vazia S. 2. /* Fase um: coleta das características dos termos */ Para cada documento Dd na coleção, 1 ≤ d ≥ N, (a) Leia Ddrealizando o parser para obter termos indexáveis. (b) Para cada termo indexável tЄDd, i. Faça fd,t receber a freqüência do termo t em Dd ii.Busque por t em S iii.Se t não estiver em S, insira-o. iv.Adicione um nó armazenado (d, fd,t) na lista

  16. ... continuação 3. /*Fase dois: saída do arquivo invertido*/ Para cada termo 1 ≤ d ≥ n, (a) Inicialize uma nova entrada do arquivo invertido (b) Para cada (d, fd,t) na lista correspondente a t, Adicione (d, fd,t) a essa entrada do arquivo invertido. (c) Se requerido, comprima a entrada do arquivo invertido. (d) Adicione essa entrada do arquivo invertido ao arquivo invertido.

  17. Exemplo

  18. Métodos para construção de Índices • Inversão baseada em Ordenação( sorted-based ) - O principal problema dos métodos descritos anteriormente é o alto consumo de memória principal. - O uso de disco é inevitável quando grandes quantidades de texto precisam ser indexadas.

  19. ... continuação - Triplas <termo,doc,freq> são armazenadas em arquivos temporários. - O índice é obtido ordenando-se estas triplas em ordem ascendente do termo e depois do documento.

  20. Resultados • A inversão para um coleção de 5GB leva cerca de 20 horas usando 40 MB de memória principal e 8 GB de espaço extra em disco. • Devido a quantidade de espaço em disco consumida, este método é considerado melhor para coleções de tamanho moderado (10 a 100MB)

  21. Redução de custos • Utilizar técnicas de compressão e estratégias mais sofisticadas de intercalação - Compressão dos arquivos temporários - Intercalação de múltiplos caminhos - Intercalação in-place

  22. Tecnologia • Nenhuma maquina de busca comercial usa todas as técnicas (compressão + indexação). • Seguem o “hard way” – hardware way – muito disco e muita memoria principal

  23. Referências • http://www.dcc.ufla.br/~psleitao/COM187/com187.mbooleano.pdf • http://www.comp.ufla.br/monografias/ano2002/Geracao_de_arquivo_invertido_utilizando_Programacao_Paralela_MPI.pdf • http://homepages.dcc.ufmg.br/~nivio/cursos/pa02/seminarios/seminario3/seminario3.html

More Related