1 / 34

Classificação/Categorização

Classificação/Categorização. Christian Diego – cdad Icamaan Viegas – ibvs. Roteiro. Introdução Construção de classificadores Aplicações Algoritmos Relevance Feedback (Rocchio) K-Nearest Neighbors Template Matching Avaliação de Classificadores K-Fold Cross Validation Curva ROC

africa
Download Presentation

Classificação/Categorização

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

  2. Roteiro • Introdução • Construção de classificadores • Aplicações • Algoritmos • Relevance Feedback (Rocchio) • K-Nearest Neighbors • Template Matching • Avaliação de Classificadores • K-Fold Cross Validation • Curva ROC • Referências

  3. Classificação • Definição • Classificar um documento de acordo com classes previamente definidas • Objetivos • Organizar documentos • Facilitar sua busca automática • Facilitar sua visualização

  4. Documentos Classe 2 Classe 1 Classe 3 Classificação

  5. Clustering X Classificação • Clustering • Criar grupos de documentos • Classes geradas automaticamente • Classificação • Definir a que grupo pertence um documento • Classes pré-definidas

  6. Construção de Classificadores • Classificação Manual • Realizada por um especialista • Construção Manual do Classificador • Regras escritas manualmente • Construção Automática do Classificador • Algoritmos de aprendizagem automática

  7. Construção Automática • Conjunto de Treinamento • Treinamento do algoritmo • Conjunto de Validação • Ajuste do sistema • Conjunto de Teste • Avaliação do desempenho do sistema

  8. Documentos Representação Inicial Redução da Dimensão ou Seleção de Termos Conhecimento Adicional Representação Final Categorização Indução Construção Automática

  9. Aplicações • Sites • Recomendação • Emails • Filtro de Spam • Base de documentos • RSS Feed’s • Reconhecimento de Assinatura • Reconhecimento de voz

  10. Atributos • Categóricos • Nomes ou rótulos • Verde, casado, muito, baixo, pequeno • Operações • Igualdade, diferença • Numéricos • Número • Inteiros, Reais • Operações • Igualdade, diferença, adição, subtração...

  11. Distâncias • Diversas maneiras de calcular • Euclidiana, Manhattan, Quadrática, Co-seno... • Problemas • Atributos Categóricos • Um atributo numérico pode ter um peso excessivo em relação aos demais

  12. Algoritmos • Relevance Feedback (Rocchio) • K-Nearrest Neighbor (k-NN) • Template Matching

  13. Relevance Feedback (Rocchio) • Adaptação para Categorização de Texto • Modelo Vetorial • Utilizando vetores ponderados do TF/IDF • Para cada categoria cria um vetor de “protótipo”, somando todos os vetores dos documentos desta categoria • Similaridade por Cosseno

  14. Relevance Feedback (Rocchio) Classe 1 Classe 2

  15. Relevance Feedback (Rocchio) Protótipo:Classe 1 Protótipo:Classe 2

  16. k-NN • Processo de aprendizagem baseado em instâncias • Classificação baseado nos k vizinhos mais próximos • Simplesmente armazena os exemplos de treinamento • Se utiliza de todos os atributos disponíveis

  17. k-NN Para 1-NN classifica como + Para 5-NN classifica como -

  18. k-NN

  19. k-NN • Ponderar o peso de cada vizinho de acordo com a distância • Robusto a ruído • Maior efetividade quando há uma grande quantidade de dados de treinamento

  20. k-NN • Desvantagens • O custo de classificação de novos padrões pode ser alto • Considera todos os atributos, quando apenas alguns deles podem ser importantes

  21. Template Matching • Utiliza um conjunto de templates para definir qual mais se aproxima de uma nova entrada • Aplicações • Reconhecimento de assinatura, voz, faces, etc. • Bioinformática • Estimação de Movimento

  22. Template Matching

  23. Template Matching

  24. Avaliação de Classificadores • É necessário ter métricas para avaliar a eficácia de um classificador • Como dividir o conjunto de exemplos em treinamento, validação e testes

  25. K-Fold Cross Validation • O conjunto de exemplos é dividido em K partes • 1 é utilizada para testes • K – 1 é utilizada para treinamento e validação • Iterativo • A parte selecionada para testes é trocada até que todas tenham sido escolhidas

  26. K-Fold Cross Validation Example Set

  27. K-Fold Cross Validation • Análise Estatística • Hipótese Nula • Hipótese Alternativa • Nível de confiabilidade - Significância • Utiliza-se após a aplicação do K-Fold Cross Validation

  28. Curva ROC • Reciever Operating Characteristics • Curva ROC é um método para visualização e comparação da performance de classificadores • Não é afetado pelo desbalanceamento das classes nos exemplos

  29. Curva ROC

  30. Curva ROC

  31. Curva ROC • Área sob a curva • Comparação de dois algoritmos

  32. Curva ROC • Desvantagens • Problemas com mais de duas classes • Separar em várias Curvas ROC • Problema de desbalanceamento • Cálculo das Áreas • Associar pesos a cada classe • Não é possível visualizar as áreas calculadas

  33. Referências • Tom Fawcett. An introduction to ROC analysis. Pattern. Recognition Letters, Vol. 27, No. 8., pp. 861-874, 2006. • Slides de George Darmiton e Tsang Ren: Aprendizagem de Máquina • Slide de Flávia Barros: Mineração da Web

  34. Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs

More Related