230 likes | 330 Views
Descoberta de Conhecimento :. Centroid-Based Document Classification: Analysis & Experimental Results Autores: Eui-Hong (Sam) Han e George Karypis Ano de publicação: 2000. Edimar Manica Fahad Kalil. 2009. Roteiro. Objetivo Pré-processamento Remoção de Stopwords Stemming
E N D
Descoberta de Conhecimento: Centroid-Based Document Classification: Analysis & Experimental Results Autores: Eui-Hong (Sam) Han e George Karypis Ano de publicação: 2000 Edimar Manica Fahad Kalil 2009
Roteiro • Objetivo • Pré-processamento • Remoção de Stopwords • Stemming • Conceitos • Poderação de Termos (TF-IDF) • Cosine Function • Centroid Vector • Modelo Vetorial (Vector-Space Model) • Funcionamento • Experimentos e Comparativo • Conclusões
Objetivo • Dado um conjunto de treinamento • Doc1 {termo1, termo2, ..., termon} -> Classe 1 • Doc2 {termo1, termo2, ..., termon} -> Classe 2 • Doc3 {termo1, termo2, ..., termon} -> Classe 2 • Doc4 {termo1, termo2, ..., termon} -> Classe 1 • Classificar um novo documento com base em seus termos • Doc5 {termo1, termo2, ..., termon} -> Classe ? • Considerando que um documento pertence a apenas uma classe
Pré-processamento do documento • Objetivo • Limpeza dos dados • Remoção de stopwords • Remover palavras que não são significantes para representar o documento (palavras comuns) • Remoção realizada através de uma stop-list • Ex: A Varig Log pediu a impugnação dos votos das empresas ... • Stemming • O usuário consulta uma palavra e um documento relevante contém apenas formas variantes desta palavra • Consulta: como comer com saúde • Documento: comendo com saúde
Pré-processamento do documento • Stemming (continuação) • Stem = radical • Palavra Radical comendo com comer com • Algoritmo utilizado: Porter's suffix-stripping • Remoção de sufixos • Baseia-se em regras que são aplicadas se determinadas condições são satisfeitas • Ex: Regra de Redução de plural • sses -> ss stresses -> stress • ies -> i ponies -> poni • s -> nada cats -> cat
Conceitos • Poderação de Termos • Em um documento alguns termos são mais importantes que outros (tem um peso maior) • TF-IDF (Term Frequency Times Inverse Document Frequency) • Objetivo: • Beneficiar termos que ocorrem bastante no documento e em poucos documentos • Atribui ao termo t uma importância no documento d que é: • Alta se t ocorrer muitas vezes em um número pequeno de documentos • Menor se t ocorrer poucas vezes no documento OU muitas vezes na coleção • Muito baixa se t ocorrer em quase todos os documentos
Conceitos • Poderação de Termos (continuação) • TF-IDF (Term Frequency Times Inverse Document Frequency) TF IDF
TF-IDF Exemplo Termo (t): bestFreq. de t no Doc1: 14 Freq. de t na coleção: 14+0+17=31 Freq. do termo que mais ocorre noDoc1: 27 (car) Nº docs na coleção: 3 Wt,doc1 = (14/27) * log2 3/31 = -1,75
Centróides • Um centróide representa uma classe • É a média dos pesos dos vários termos presentes nos documentos de uma mesma classe do conjunto de treinamento.
Centróides Classe A Classe B Classe B Classe A
Centróides – Calculando o centróide da classe A Classe A Classe B Classe B Classe A
Centróides – Calculando o centróide da classe B Classe A Classe B Classe B Classe A
Cosine Function - Idéia • Documentos que estão próximos no espaço vetorial tem conteúdo similar • Similaridade computada usando o co-seno do ângulo entre os documentos
Cosine Function - Idéia • O comprimento dos valores não é levado em consideração, apenas suas direções. • Consultas e centróides são considerados pseudo-documentos.
Cosine Function - Cálculo • O vetor de um documento j é definido por: • O vetor de um centróide k é definido por:
Modelo proposto • Centroid-Based Document Classifier Baseado no modeloespaço-vetorial, que parte da premissa de que o significado de um documento pode ser representado pelos termos presentes nele. O modelo representa documentos como um vetor de termos (1) onde o termo no vetor é um valor não-negativo denotando a não ocorrência, ocorrência única ou múltipla de um termo i em um documento d. (1) Tendo um conjunto S de documentos e sua representação na forma de vetores, são utilizadas as funções Cosine e de definição dos centróides.
Funcionamento Passosnecessários: Treinamento: • - Cálculo do TF-IDF; • - Cálculo dos centróides; Novosdocumentos: • - Cálculo do TF-IDF; • - Similaridade entre o novo documento e todososcentróidesgerados no treinamento, usando Cosine Function.
Funcionamento Exemplo didático! - 4 documentos de treino; • 1 novo documento; • 2 classes
Experimentos • Comparativo entre outros algoritmos classificadores 17 de 23 documentos classificados corretamente - Foram usados 80% dos documentos para treino e 20% como conjunto de teste.
Comparativo Centroid-based X Naive Bayes -Melhor que o classificador Naive Bayes pela forma como é computada a similaridade entre um documento teste e uma classe. -Naive Bayes usa a regra Bayes, assumindo que quando condicionado em cada classe, a ocorrência de diferentes termos é independente. Porém, na realidade isso não acontece freqüentemente. -Dependência entre termos pode ser vista pela freqüência com que aparecem juntos em documentos da mesma classe.
Considerações Finais VANTAGENS - Algoritmo com complexidade linear e melhores resultados que o Naive Bayes (que é um dos melhores). - A essência do algoritmo está na sua forma de calcular a similaridade entre um documento de teste e o centróide da classe. - É levada em conta a similaridade, freqüência e dependência entre os termos presentes no documento com os documentos da classe. DESVANTAGEM - O algoritmo determina que um documento só pode pertencer a uma classe específica.