1 / 15

Equipe: Daniel Penaforte (dap4) Davi Pires (dpr) Ernani Azevedo (ema3)

Equipe: Daniel Penaforte (dap4) Davi Pires (dpr) Ernani Azevedo (ema3) Guilerme Carvalho (ggc). Problema. Recuperar informação, de forma rápida e estruturada, dentro do domínio de consultoria organizacional. Apresentação. * Servidor de consultas. INTERFACE COM O USUÁRIO.

Download Presentation

Equipe: Daniel Penaforte (dap4) Davi Pires (dpr) Ernani Azevedo (ema3)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Equipe: Daniel Penaforte (dap4) Davi Pires (dpr) Ernani Azevedo (ema3) Guilerme Carvalho (ggc)

  2. Problema • Recuperar informação, de forma rápida e estruturada, dentro do domínio de consultoria organizacional.

  3. Apresentação

  4. * Servidor de consultas INTERFACE COM O USUÁRIO consulta (1) RECUPERADOR recuperação (2) ordenação (3) resposta (4) ORDENADOR BASE DE ÍNDICES * Motor de Indexação WEB PRÉ-PROCESSADOR DOCS Representação dos Docs Aquisição manual INDEXADOR / CLASSIFICADOR Arquitetura

  5. Pré-processamento • Criação da centróide de cada documento • 50 termos • Técnicas utilizadas • Stemming (RSLP) • Stoplist (356 palavras) • TF-IDF

  6. Classificação • Categorias • Rh, Marketing, Gestão, Direito, Finanças e Tecnologia • Critérios de classificação • Conjunto de palavras-chave associado a cada categoria • Grau de pertinência

  7. Indexação • Modelo Espaço Vetorial • Tabela de índices invertidos. • Armazena o peso de cada termo num documento. • Vetor de categorias é armazenado com o doc.

  8. Ordenação simclasses = cos(qclasses, vclasses) simindex = cos(qindex, vindex) rank = w1simindex + w2simclasses

  9. Ordenação • Cosseno entre vetores • cos_cat = Vetor categorias (TECH,FIN,MKT,LAW,MNG,HR) • cos_keys = Vetor palavras chave (100,90,80,70,70...) • 2*cos_keys + cos_cat / 3

  10. Ordenação (Exemplo) Recursos Humanos Processo de seleção PROCESS SELEC (0, 0, 0, 0, 0, 1) (100, 90) (0.743, 0.668)

  11. Testes • Teste do Categorizador • Categorização manual dos docs • Comparação com a categorização do sistema • “Acertos”, “Falsos +” e “Falsos -” (teste) • Média do cosseno: 0.556 • Desvio padrão: 0.084

  12. Testes • Teste do Indexador • Listar as consultas suportadas • Ligar cada documento às consultas para as quais ele é relevante • Rodar cada consulta no sistema, e medir cobertura, precisão e f-measure • Não foram executados [ainda].

  13. Hora da ConsultA

  14. E o futuro? • Entregar o relatório! • Aquisição automática (criar um crawler) • Agilizar o processo de busca • Testar mais... • Disponibilizar para o público!

  15. Dúvidas?

More Related