190 likes | 308 Views
Gerência e Recuperação de Informação em Documentos Eletrônicos. Objetivo Geral. O projeto visa: Desenvolver novos algoritmos para gerência e recuperação de informação em documentos Gerar novas tecnologias a partir de resultados de pesquisa. Motivação. Crescimento da Web
E N D
Gerência e Recuperação de Informação em Documentos Eletrônicos
Objetivo Geral O projeto visa: • Desenvolver novos algoritmos para gerência e recuperação de informação em documentos • Gerar novas tecnologias a partir de resultados de pesquisa Gerindo - Reunião de Avaliação 2
Motivação • Crescimento da Web • Abundância de documentos em instituições • Facilidade de acesso via rede • Crescente demanda por software para prover acesso eficiente e eficaz à informação • Mercado com forte tendência de crescimento nos próximos anos Gerindo - Reunião de Avaliação 3
Objetivos Específicos • Desenvolvimento de novos algoritmos em RI • Criação de um repositório central para software, artigos, dissertações e outras fontes relacionadas ao projeto • Coleta de páginas da Web brasileira e disponibilização de estatísticas • Realização de trabalhos integrados com pesquisadores dos três grupos • Busca de parceiros para a transferência de novas tecnologias para a sociedade Gerindo - Reunião de Avaliação 4
Participantes • Três Grupos, dez pesquisadores • UFMG • Alberto H.F. Laender • Berthier Ribeiro-Neto • Nivio Ziviani (Coordenador) • Renato A. Ferreira • Wagner Meira Jr. • UFAM • Altigran S. da Silva • Edleno S. de Moura • João M.B. Cavalcanti • UFRGS • Carlos A. Heuser • Mara Abel Gerindo - Reunião de Avaliação 5
Repositório: Savannah • Solução aberta, amplamente usada e ambiente flexível • Armazenamento e recuperação de software, coleções teste, produção científica • Documentação via Internet • Controle automático de versões • Ambiente de desenvolvimento que favorece: • Metodologia • Colaboração • Publicação externa ao GERINDO • Adoção de outros padrões de desenvolvimento (codificação e documentação) Gerindo - Reunião de Avaliação 6
Tópicos de Pesquisa • Categorização de Documentos • Gerência de Dados Semi-Estruturados • Modelos de Recuperação de Informação • Eficiência em Recuperação de Informação • Mineração de Dados Gerindo - Reunião de Avaliação 7
Web Classification Fonte: Cristo, Calado, Moura, Ziviani and B. Ribeiro-Neto, Link Information as a Similarity Measure in Web Classification, SPIRE 2003 Gerindo - Reunião de Avaliação 8
Web Classification Fonte: Calado, Cristo, Moura, Ziviani, Ribeiro-Neto, and Gonçalves, Combining Link- Based and Content-Based Methods for Web Document Classification, ACM CIKM 2003 Gerindo - Reunião de Avaliação 9
Conjunctive and Phrase Queries Fonte: Pôssas, B., Ziviani, N., Ribeiro-Neto, B., and Meira, W. (2004). Processing conjunctive and phrase queries with the set-based model. In 11th International Symposium on String Processing and Information Retrieval (SPIRE 2004), Padova, Itália. Gerindo - Reunião de Avaliação 10
Image Retrieval Fonte: Coelho, T., Calado, P., Souza, L., Ribeiro-Neto, B., and Muntz, R. (2003). Image retrieval using multiple evidence ranking. IEEE Transactions on Knowledge and Data Engineering, 16(4):408–417. Gerindo - Reunião de Avaliação 11
Related Queries Fonte: Fonseca, B., Golgher, P., Moura, E. S., Pôssas, B. and Ziviani, N. (2004). Discovering Search Engine Related Queries Using Association Rules. Journal of Web Engineering (JWE), to appear. Gerindo - Reunião de Avaliação 12
Keyword-based Queries over Web Databases Fonte: Calado, Silva, Vieira, Laender and Ribeiro-Neto, A Bayesian Network Approach Searching Databases Through keyword-based Queries. IP&M, 40(5): 773-790. Gerindo - Reunião de Avaliação 13
Produção Científica Gerindo - Reunião de Avaliação 14
Qualidade dos Trabalhos • Periódicos: • ACM Transactions on Information Systems (TOIS) • Data and Knowledge Engineering • Information Processing and Management (2) • IEEE Transactions on Knowledge and Data Engineering (TKDE) • Journal of Web Engineering (JWE) • Knowledge and Information Systems • Systems, Man and Cybernetics • Theoretical Computer Science • Conferências Internacionais Mais Importantes: • ACM CIKM 2003 e 2004 (Poster) • ACM/IEEE JCDL 2003 e 2004 (Best Student Paper) • Conference on Conceptual Modeling (ER 2004) • Very Large Database (VLDB 2004) • WWW 2004 Gerindo - Reunião de Avaliação 15
Formação de Pessoal Gerindo - Reunião de Avaliação 16
Parcerias • Akwan Information Technologies (www.akwan.com.br) • Disponibilidade de dados (logs) reais • Fabriq • Gestão eletrônica de documentos • Programa de gestão da lei de informática da Zona Franca de Manaus • Philips MDS • Gerente de conteúdos para portais Web • Singol Tecnologia da Informação • Sistema de verificação de plágio em documentos Web Gerindo - Reunião de Avaliação 17
Impacto na Infra-estrutura • UFMG: • Máquina paralela com 8 processadores • Renovação do laboratório com aquisição de equipamentos e discos magnéticos para armazenar grandes coleções • UFAM • Laboratório suporta o trabalho de mais de 20 alunos • Recursos da Philips-MDS, que serviram para reforçar a infra-estrutura do laboratório • UFRGS • Renovação do laboratório com aquisição de equipamentos Gerindo - Reunião de Avaliação 18
Próximos Dois Anos • Continuar atividades de pesquisa seguindo objetivos do projeto • Projeto aprovado para 4 anos • Realizar eventos • Workshops internos • 28th ACM SIGIR (Salvador, 2005), SPIRE (B. Aires, 2005) • Continuar atualizando o repositório • Biblioteca de softwares • Coleções teste • Formação de doutores, mestres e bacharéis • Estabelecer novas parcerias com empresas • Atualizar equipamentos dos laboratórios Gerindo - Reunião de Avaliação 19