150 likes | 259 Views
Equipe: Daniel Penaforte (dap4) Davi Pires (dpr) Ernani Azevedo (ema3) Guilerme Carvalho (ggc). Problema. Recuperar informação, de forma rápida e estruturada, dentro do domínio de consultoria organizacional. Apresentação. * Servidor de consultas. INTERFACE COM O USUÁRIO.
E N D
Equipe: Daniel Penaforte (dap4) Davi Pires (dpr) Ernani Azevedo (ema3) Guilerme Carvalho (ggc)
Problema • Recuperar informação, de forma rápida e estruturada, dentro do domínio de consultoria organizacional.
* Servidor de consultas INTERFACE COM O USUÁRIO consulta (1) RECUPERADOR recuperação (2) ordenação (3) resposta (4) ORDENADOR BASE DE ÍNDICES * Motor de Indexação WEB PRÉ-PROCESSADOR DOCS Representação dos Docs Aquisição manual INDEXADOR / CLASSIFICADOR Arquitetura
Pré-processamento • Criação da centróide de cada documento • 50 termos • Técnicas utilizadas • Stemming (RSLP) • Stoplist (356 palavras) • TF-IDF
Classificação • Categorias • Rh, Marketing, Gestão, Direito, Finanças e Tecnologia • Critérios de classificação • Conjunto de palavras-chave associado a cada categoria • Grau de pertinência
Indexação • Modelo Espaço Vetorial • Tabela de índices invertidos. • Armazena o peso de cada termo num documento. • Vetor de categorias é armazenado com o doc.
Ordenação simclasses = cos(qclasses, vclasses) simindex = cos(qindex, vindex) rank = w1simindex + w2simclasses
Ordenação • Cosseno entre vetores • cos_cat = Vetor categorias (TECH,FIN,MKT,LAW,MNG,HR) • cos_keys = Vetor palavras chave (100,90,80,70,70...) • 2*cos_keys + cos_cat / 3
Ordenação (Exemplo) Recursos Humanos Processo de seleção PROCESS SELEC (0, 0, 0, 0, 0, 1) (100, 90) (0.743, 0.668)
Testes • Teste do Categorizador • Categorização manual dos docs • Comparação com a categorização do sistema • “Acertos”, “Falsos +” e “Falsos -” (teste) • Média do cosseno: 0.556 • Desvio padrão: 0.084
Testes • Teste do Indexador • Listar as consultas suportadas • Ligar cada documento às consultas para as quais ele é relevante • Rodar cada consulta no sistema, e medir cobertura, precisão e f-measure • Não foram executados [ainda].
E o futuro? • Entregar o relatório! • Aquisição automática (criar um crawler) • Agilizar o processo de busca • Testar mais... • Disponibilizar para o público!