1 / 23

Descoberta de Conhecimento :

Descoberta de Conhecimento :. Centroid-Based Document Classification:  Analysis & Experimental Results Autores: Eui-Hong (Sam) Han e George Karypis Ano de publicação: 2000. Edimar Manica Fahad Kalil. 2009. Roteiro.  Objetivo  Pré-processamento Remoção de Stopwords Stemming

lieu
Download Presentation

Descoberta de Conhecimento :

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Descoberta de Conhecimento: Centroid-Based Document Classification:  Analysis & Experimental Results Autores: Eui-Hong (Sam) Han e George Karypis Ano de publicação: 2000 Edimar Manica Fahad Kalil 2009

  2. Roteiro •  Objetivo •  Pré-processamento • Remoção de Stopwords • Stemming •  Conceitos • Poderação de Termos (TF-IDF) • Cosine Function • Centroid Vector • Modelo Vetorial (Vector-Space Model) •  Funcionamento •  Experimentos e Comparativo •  Conclusões

  3. Objetivo •  Dado um conjunto de treinamento • Doc1 {termo1, termo2, ..., termon} -> Classe 1 • Doc2 {termo1, termo2, ..., termon} -> Classe 2 • Doc3 {termo1, termo2, ..., termon} -> Classe 2 • Doc4 {termo1, termo2, ..., termon} -> Classe 1 •  Classificar um novo documento com base em seus termos • Doc5 {termo1, termo2, ..., termon} -> Classe ?  •  Considerando que um documento pertence a apenas uma classe

  4. Pré-processamento do documento •  Objetivo • Limpeza dos dados •  Remoção de stopwords • Remover palavras que não são significantes para  representar o documento (palavras comuns) • Remoção realizada através de uma stop-list • Ex: A Varig Log pediu a impugnação dos votos das empresas ... •  Stemming • O usuário consulta uma palavra e um documento relevante contém apenas formas variantes desta palavra • Consulta: como comer com saúde • Documento: comendo com saúde

  5. Pré-processamento do documento •  Stemming (continuação) • Stem = radical • Palavra                 Radical           comendo                 com           comer                     com • Algoritmo utilizado: Porter's suffix-stripping • Remoção de sufixos • Baseia-se em regras que são aplicadas se determinadas condições são satisfeitas • Ex: Regra de Redução de plural • sses -> ss              stresses -> stress • ies    -> i                 ponies -> poni • s       -> nada         cats -> cat

  6. Conceitos •  Poderação de Termos • Em um documento alguns termos são mais importantes que outros (tem um peso maior) • TF-IDF (Term Frequency Times Inverse Document Frequency) • Objetivo: • Beneficiar termos que ocorrem bastante no documento e em poucos documentos • Atribui ao termo t uma importância no documento d que é: • Alta se t ocorrer muitas vezes em um número pequeno de documentos • Menor se t ocorrer poucas vezes no documento OU muitas vezes na coleção • Muito baixa se t ocorrer em quase todos os documentos

  7. Conceitos • Poderação de Termos (continuação) • TF-IDF (Term Frequency Times Inverse Document Frequency) TF IDF

  8. TF-IDF Exemplo Termo (t): bestFreq. de t no Doc1: 14 Freq. de t na coleção: 14+0+17=31 Freq. do termo que mais ocorre noDoc1: 27 (car) Nº docs na coleção: 3 Wt,doc1 = (14/27) * log2 3/31 = -1,75

  9. Centróides • Um centróide representa uma classe • É a média dos pesos dos vários termos presentes nos documentos de uma mesma classe do conjunto de treinamento.

  10. Centróides Classe A Classe B Classe B Classe A

  11. Centróides – Calculando o centróide da classe A Classe A Classe B Classe B Classe A

  12. Centróides – Calculando o centróide da classe B Classe A Classe B Classe B Classe A

  13. Cosine Function - Idéia • Documentos que estão próximos no espaço vetorial tem conteúdo similar • Similaridade computada usando o co-seno do ângulo entre os documentos

  14. Cosine Function - Idéia • O comprimento dos valores não é levado em consideração, apenas suas direções. • Consultas e centróides são considerados pseudo-documentos.

  15. Cosine Function - Cálculo

  16. Cosine Function - Cálculo • O vetor de um documento j é definido por: • O vetor de um centróide k é definido por:

  17. Cosine Function - Cálculo

  18. Modelo proposto • Centroid-Based Document Classifier Baseado no modeloespaço-vetorial, que parte da premissa de que o significado de um documento pode ser representado pelos termos presentes nele. O modelo representa documentos como um vetor de termos (1) onde o termo no vetor é um valor não-negativo denotando a não ocorrência, ocorrência única ou múltipla de um termo i em um documento d. (1) Tendo um conjunto S de documentos e sua representação na forma de vetores, são utilizadas as funções Cosine e de definição dos centróides.

  19. Funcionamento Passosnecessários: Treinamento: • - Cálculo do TF-IDF; • - Cálculo dos centróides; Novosdocumentos: • - Cálculo do TF-IDF; • - Similaridade entre o novo documento e todososcentróidesgerados no treinamento, usando Cosine Function.

  20. Funcionamento Exemplo didático! - 4 documentos de treino; • 1 novo documento; • 2 classes

  21. Experimentos • Comparativo entre outros algoritmos classificadores 17 de 23 documentos classificados corretamente - Foram usados 80% dos documentos para treino e 20% como conjunto de teste.

  22. Comparativo Centroid-based X Naive Bayes -Melhor que o classificador Naive Bayes pela forma como é computada a similaridade entre um documento teste e uma classe. -Naive Bayes usa a regra Bayes, assumindo que quando condicionado em cada classe, a ocorrência de diferentes termos é independente. Porém, na realidade isso não acontece freqüentemente. -Dependência entre termos pode ser vista pela freqüência com que aparecem juntos em documentos da mesma classe.

  23. Considerações Finais VANTAGENS - Algoritmo com complexidade linear e melhores resultados que o Naive Bayes (que é um dos melhores). - A essência do algoritmo está na sua forma de calcular a similaridade entre um documento de teste e o centróide da classe. - É levada em conta a similaridade, freqüência e dependência entre os termos presentes no documento com os documentos da classe. DESVANTAGEM - O algoritmo determina que um documento só pode pertencer a uma classe específica.

More Related