170 likes | 264 Views
Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação. Bruno Augusto Vivas e Pôssas 09/04/2003 Departamento de Ciência da Computação Universidade Federal de Minas Gerais. Motivação. Quantas versões de indexadores temos para cada uma dos grupos presentes?
E N D
Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação Bruno Augusto Vivas e Pôssas 09/04/2003 Departamento de Ciência da Computação Universidade Federal de Minas Gerais
Motivação • Quantas versões de indexadores temos para cada uma dos grupos presentes? • Esses indexadores eram o foco inicial de investigação? • Quanto tempo foi gasto na criação da infra-estrutura para a investigação em questão? LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Objetivo • Fomentar a pesquisa em recuperação de informação • direcionando todos os esforços de implementação diretamente no foco de investigação • disponibilizando um ambiente integrado de desenvolvimento e avaliação dos resultados • facilitando a transmissão de conhecimentos entre os grupos de pesquisa envolvidos LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Biblioteca: Composição • Módulos: • Coleta • Processamento • Indexação • Classificação • Filtragem • Busca • ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Biblioteca: Composição • Módulos: • Validação e avaliação dos resultados • Coleções de referência • Visualização • ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Metodologia de Desenvolvimento • Modelagem inicial de cada módulo a partir das experiências dos grupos envolvidos • Desenvolvimento guiado por um processo simples e não burocratizado de engenharia de software • Documentação e testes de regressão de cada módulo implementado LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto • Ambiente de desenvolvimento: • Qualquer ambiente integrado ao savannah • Ambiente de execução: • Multi-plataforma • Linguagem de programação: • Ansi C/C++ • Java • ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto • Módulo de Coleta: • capaz de coletar documentos, imagens, áudio, vídeo, ... • implementação baseada no software wget (http://www.wget.org) LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto • Módulo de Processamento: • capaz de processar e extrair o conteúdo de documentos nos seguintes formatos: • SGML, HTML e XML • coleções de referência LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto • Módulo de Indexação: • capaz de indexar grandes coleções de documentos • técnicas de compressão • informação posicional • informação de links • determinação de passagens LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto • Módulo de Busca: • capaz de recuperar documentos a partir da necessidade de informação dos usuários para cada um dos modelos clássicos • booleano • vetorial • probabilístico • extensão dos modelos implementados através da análise de links LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto • Módulo de Validação e Avaliação dos Resultados: • capaz de validar e avaliar os resultados dos modelos de recuperação de informação a partir das métricas usuais: • revocação (recall) • precisão (precision) • tempo de resposta • recursos utilizados (memória, etc) • ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto • Módulo para Coleções de Referência: • capaz de extrair e processar os documentos, tópicos e conjuntos resposta das principais coleções de referência • TReC, CACM, CFC, CISI, MEDL, etc • capaz de determinar o conjunto resposta de um determinada consulta a partir da mesma metodologia utilizada pela NIST • pool de respostas LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto • Módulo de Visualização: • capaz de apresentar os documentos retornados a partir de uma consulta • simples lista ordenada de documentos baseados na similaridade com a consulta LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Prova de Conceito • Combinação dos módulos implementados para a criação de uma máquina de busca simplificada • Disponibilização da biblioteca como contribuição para a comunidade de recuperação de informação • mg, smart, ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto • Módulo de Classificação: • capaz de acessar e navegar sobre uma ontologia representada por um thesaurus • capaz de determinar a partir de passagens e do conjunto de definições presentes em um thesaurus, qual a melhor classificação para um documento LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto • Módulo de Filtragem: • capaz de determinar a relevância de um novo documento a partir de uma consulta LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais