290 likes | 415 Views
Word co-occurrence features for text classification. 報告人: 陳重光. 作者 : Fabio Figueiredo , Leonardo Rocha ,Thierson Couto, Thiago Salles , Marcos Andre Goncalves ,Wagner Meira Jr. 出處 : Information Systems. Outline. 研究相關工作 特徵提取 實驗評估設定、步驟和結果 結論. 研究相關工作. 中文句法上的字詞定義
E N D
Word co-occurrence features for text classification 報告人:陳重光 作者:Fabio Figueiredo , Leonardo Rocha ,Thierson Couto, Thiago Salles , Marcos Andre Goncalves ,Wagner Meira Jr. 出處:Information Systems
Outline • 研究相關工作 • 特徵提取 • 實驗評估設定、步驟和結果 • 結論
研究相關工作 • 中文句法上的字詞定義 • 針對文件分類為什麼沒有人可以做到100%的斷詞準度? • 文章字詞之間缺乏可辨識的無意義字元(ex:英文中的SPACE) • 有意義的字詞分佈與無意義字詞非常相近 • 缺乏導出索引方面模糊字詞的技術 • 關鍵字的雜訊 • 假設在一句法包含T個詞組中有S個同義詞,就有 個具有相同含意的字詞 Lewis(1990s)針對所提出幾點下了字詞特徵定義的總結: • 多份文件中在語意上具有低頻率特徵字詞 • 同義詞的高維度空間可以降低其單詞模糊性
研究相關工作 • Word n-grams • n-gram這種斷詞做法對分類的效益好壞,是來自於原樣本集合的來源與類別 • 設定一個有效門檻值策略控制n-gram建立出來的字詞庫,可有效提升分類效益 • 設定有效的stop word也就是文章中無意義的字詞,可有效過濾文件中的雜訊字詞
研究相關工作 • 在文章中非相鄰的共同特徵(c-features) • 文件主要的特徵定義在於同類別但不同的詞彙上,ex:找有關資訊類別的文章 科 科 科 技 技 技 資 資 資 訊 訊 訊 工 工 工 程 程 程 南 台 大 學 學 系 s-features congregation c-featuresDatabase
特徵提取 • 方法 • 用上述所使用的特徵提取方法和一些重要決策去擴充詞庫和改善分類效益 • 利用階層樹降低Step1的計算成本 Step1: 選擇s-features與合併c-features的策略 • 選擇s-features最佳組合的策略 • 經由斷詞之後計算其s-features權重值 • 合併成c-features的策略 • 合併高權重&非相鄰的s-feature成為c-features • 計算c-features在文件出現的機率做為字詞的最低門檻值
特徵提取 • 方法 • 將合併出的c-features排名 Step2: 排名的策略 • 藉由優化函數判斷所合併出的c-features辨識率 class1 class2 class3 c-features c-features
特徵提取 • 方法 • c-features詞庫的擴充 Step3: 擴充的策略 • 給定一個門檻值 • 當dominance()>= 就將c-features插入到訓練集合中 • 最後以s-features和c-features混合訓練,當s-features屬於c-features就擴充到詞庫中
實驗評估設定、步驟和結果 • 實驗的文件集合 • 20 Newsgroups 18822:20種科學、宗教和政治的新聞文件共18828篇 • OHSUMED:23種新血管疾病的文件共18302篇 • Reuters-21578:10種新聞文件,文章是由標題、作者、發稿日期和文件本體組成共8184篇 • ACM11:11種類別,由ACM期刊網站中的文件摘要和標題組成共29570篇
實驗評估設定、步驟和結果 • 實驗的文件集合 • a:20 Newsgroups 18822 • b:ACM11 • c:OHSUMED • d: Reuters-21578
實驗評估設定、步驟和結果 • 分類效益實驗的評估方法 • 評估所提的策略與參數的設置 • 使用30~70%之間分成訓練與測試集合 • 評估kNN、Svm和Naıve Bayes分類演算法得到的分類效益
實驗評估設定、步驟和結果 • 精確度(precision)、召回率(recall)和F-Measure(檢測分類系統的品質)設定 • TP(True positives):所測試的文章屬於某個類別,且被分類到此類別 • TN(True negatives):所測試的文章屬於某個類別,但沒有被分類到此類別 • FP(False positives):所測試的文章不屬於某個類別,但被分類到此類別 • FN(False negatives):所測試的文章不屬於某個類別,且沒有被分類到此類別
實驗評估設定、步驟和結果 • 精確度(precision)、召回率(recall)和F-Measure(檢測分類系統的品質)評估公式 • 召回率公式: • 精確度公式: • 多類別召回率公式: • 多類別精確度公式:
實驗評估設定、步驟和結果 • 精確度(precision)、召回率(recall)和F-Measure(檢測分類系統的品質)評估公式 • F-Measure公式(micro-average): • 多類別F-Measure公式(macro-average):
實驗評估設定、步驟和結果 • 針對生成c-features詞庫大小設定
實驗評估設定、步驟和結果 • 評估c-features的辨識率 • 測試6個最低門檻值:50% 60% 70% 80% 90% 100% • 與dominance出來的值比較 > dominance才產出c-features • 設定4個類別數量參數(min_supp):2468 • 將產生的c-features依不同類別數分類 • Note:實驗都是以bigrams的做法為基底 • 上述所提到的N、dominance和min_supp參數值定值都來自於TheArtofComputerSystemsPerformanceAnalysis:TechniquesforExperimentalDesign這篇研究
實驗評估設定、步驟和結果 • 實驗步驟 • 隨機配置5次不同的訓練與測試集合 • 反覆做20次有c-features和沒有c-features做比較 • 藉由不同的斷詞方法比較每個分類演算法所得的分類效益
實驗評估設定、步驟和結果 • 實驗結果 Min_spp:2 詞庫大小:V SVM: 20 Newsgroups:100% Reuters- 21578:100% OHSUMED:90% ACM11:70% kNN: 20 Newsgroups:80% Reuters- 21578:90% OHSUMED:100% ACM11:60% Naive-Bayes: 20 Newsgroups:90% Reuters- 21578:80% OHSUMED:60% ACM11:70%
實驗評估設定、步驟和結果 • 實驗結果
實驗評估設定、步驟和結果 • 實驗結果 • 每種樣本利用這篇研究的特徵提取策略SVM所得的分類效益
實驗評估設定、步驟和結果 • 實驗結果 • Min_Supp參數利用OHSUMED樣本對SVM分類的影響
實驗評估設定、步驟和結果 • 實驗結果 • N參數詞庫大小對SVM分類的影響
實驗評估設定、步驟和結果 • 實驗結果 • Dominance門檻值參數 對SVM分類的影響
實驗評估設定、步驟和結果 • 實驗結果 • 分析計算成本
實驗評估設定、步驟和結果 • 實驗結果 • 分析計算成本(加入min_spp控制詞庫大小)
實驗評估設定、步驟和結果 • 實驗結果 • 利用min_spp控制詞庫大小所得到的分類效益
實驗評估設定、步驟和結果 • 實驗結果 • Dominance 門檻值=70%
結論 • 定義好的文件特徵提取決策創造出有效益的分類器 • 這篇研究也將所提出的特徵提取策略套用在傳統的分類演算法中,討論出此策略是適用的