Improving Text Categorization Bootstrapping via Unsupervised Learning

Presenter : Bo-Sheng Wang Authors :ALFIO GLIOZZO, IDO DAGAN TSLP, 2009 Improving Text Categorization Bootstrapping via Unsupervised Learning

Outlines Motivation Objectives Methodology Evaluation Experiments Conclusions Comments

Motivation Supervised systems for text categorization requirelarge amounts of hand-labeled texts IL inherently suffers from a score scaling problem and very little information about the intension of a category.

Objectives Investigate and improve two specific weaknesses that inherently affect the IL schema. Latent Semantic Index Gaussian Mixture Algorithm

Methodology-Latent Semantic Index

Vector Semantic Model

Methodology-Latent Semantic Index

Methodology-Gaussian Mixture Algorithm This paper propose mapping the similarity values into class posterior probabilities using unsupervised estimation of Gaussian mixtures.

Methodology-Gaussian Mixture Algorithm

Seeds

Evaluation-Impact of LSI Similarity and GM on IL Performance

Evaluation-Extensional vs. Intensional Learning A major of a comparison between IL and EL is the amount of supervision required to obtain level of performance.

Experiments –

Conclusions We obtained competitive performance using only the category names as initial seeds. Drastically reduce the number of seeds while signiﬁcantly improving the performance.

Comments • Advantages • Performance, • Disadvantage • Time • Applications • Text Mining

Improving Text Categorization Bootstrapping via Unsupervised Learning

Improving Text Categorization Bootstrapping via Unsupervised Learning

Presentation Transcript

Text Categorization

CS 391L: Machine Learning Text Categorization

Text Categorization

Text Categorization (TC)

Lecture 16: Unsupervised Learning from Text

Learning for Text Categorization

Text Categorization

Text Categorization

Text Categorization

Text Categorization

text categorization

Statistical Text Categorization

Text Categorization

Text Categorization

Lecture 16: Unsupervised Learning from Text

CS 391L: Machine Learning Text Categorization

Text Categorization

Text Categorization

Text Categorization