150 likes | 249 Views
Sistema de Recuperação de Informação baseado em Mapas de documentos para a BDTD-UFPE. Bruno Florencio Pinheiro Orientador: Renato Fernandes Corrêa. Roteiro. Introdução Objetivo Motivação Coleção de Documentos Aplicação Trabalhos Futuros. Introdução.
E N D
Sistema de Recuperação de Informação baseado em Mapas de documentos para a BDTD-UFPE Bruno Florencio Pinheiro Orientador: Renato Fernandes Corrêa
Roteiro • Introdução • Objetivo • Motivação • Coleção de Documentos • Aplicação • Trabalhos Futuros
Introdução • Sistemas de Recuperação da Informação (SRI) são aplicações com o objetivo de satisfazer a necessidade de informação do usuário através de consultas. • Mapas de documentos são redes neurais artificiais do tipo Mapas Auto-organizáveis treinados com vetores documentos.
Objetivo • Agregar um mapa de documento ao SRI com o intuito de auxiliar o usuário em suas buscas. • Disponibilizar a consulta tanto através de palavras-chaves, como através da navegação pelo mapa.
Motivação • Crescente número de documentos (teses e dissertações) em meio digital. • Tornar universal o acesso a esses documentos. • Dificuldade do usuário em expressar a sua necessidade da informação através de palavras-chaves.
Coleção de Documentos • Biblioteca Digital de Teses e Dissertações da UFPE (BDTD-UFPE) • Acervo do material produzido nos programas de pós-graduação da universidade. • Cerca de 6 mil documentos. • Vinculada a BDTD nacional e ao NDLTD (Networked Digital Library of Theses and Dissertations)
Aplicação • Arquitetura
Aplicação • Aquisição dos documentos • Através do protocolo OAI-PMH • Colheita de arquivos XMLs contendo metadados dos documentos • Extração dos dados através da biblioteca JColtrane
Aplicação • Indexação • Uso da biblioteca em Java, Lucene. • Operações de Stemming, eliminação de pontuação, dígitos e stopwords. • Geração do índice invertido através do modelo espaço vetorial.
Aplicação • Construção do Mapa • Representação dos documentos como vetores compondo uma matriz esparsa. • Treinamento do mapa auto-organizável com essa matriz. • Rotinas de treinamento realizadas em MATLAB, resultado do trabalho de (CORRÊA, 2008).
Aplicação • Construção da Interface • Terminado o treinamento, rotula-se os neurônios com as palavras-chaves mais significativas. • Geração de uma imagem representando o mapa no formato 10 x 12 • Relação das áreas da imagem com a lista de documentos pertencentes a mesma.
Trabalhos Futuros • Comparar e analisar o desempenho de variantes do SOM, além de outros modelos aplicados ao sistema.
Referências • CARDOSO JUNIOR, M. J. M. Clio-i: Interoperabilidade entre repositórios digitais utilizando o protocolo OAI-PMH. 2007. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife. • JCOLTRANE. Portal de informações e tutoriais da ferramenta JColtrane. Disponível em: <http://jcoltrane.sourceforge.net/> • WIKI LUCENE. Enciclopédia digital da ferramenta Lucene. Disponível em:<http://wiki.apache.org/jakarta-lucene/>. • CORRÊA, R. F. Sistemas Baseados em Mapas Auto-organizáveis para Organização Automática de Documentos Texto. Tese de Doutorado. Centro de Informática da UFPE, Recife, 2008.
Agradecimentos • À FACEPE pelo fomento através da bolsa PIBIC e o apoio financeiro ao projeto “Mapeador de Teses e Dissertações da UFPE (MTD-UFPE)”. • À atenção de todos. OBRIGADO!