190 likes | 260 Views
Low Rank Language Models for Small Training Sets. 出處 : IEEE Signal Processing Letters 作者 : Hutchinson, B. Ostendorf, M. Fazel, M. 報告人 : 許仕衡 學號 :MA0G0102 報告日期 :2012/1/9. 大綱. 簡介 文獻探討 研究方法 實驗結果 結論. 簡介 (1/2). 語言模組平滑法,且對大型資料集訓練的效能顯著。
E N D
Low Rank Language Models for Small Training Sets 出處: IEEE Signal Processing Letters 作者:Hutchinson, B. Ostendorf, M. Fazel, M. 報告人:許仕衡 學號:MA0G0102 報告日期:2012/1/9
大綱 • 簡介 • 文獻探討 • 研究方法 • 實驗結果 • 結論
簡介(1/2) • 語言模組平滑法,且對大型資料集訓練的效能顯著。 • modified Kneser–Ney方法,在不同訓練集的來源中,仍可維持一定的效能,儘管其他的方法在大型語言模組中能更有效的訓練。
簡介(2/2) • 大型訓練集是有價值的,但在某些情況下,它無法被使用: • 為專門交際的角色或目標訓練一個新的模組。 • 本文提出了可以精確控制模組複雜性的方法,low rank language models(LRLM)可以在小範圍的資料集裡提供更好的效能。
文獻探討(1/5) • 在每個n-gram的語言模組隱含定義一個n階的聯合機率張量(joint probabilitytensor): • 當n=1時,稱為 unigram • 當n=2時,稱為 bigram • 當n=3時,稱為 trigram • n-gram的定義,就是這個字是否和前面n-1個字有關。
文獻探討(2/5) • 說明在條件機率矩陣下,排名平滑下降的現象
文獻探討(3/5) • 定義n階的張量 為: ⊗ :表示張量的積 :非負整數的權重值 F:因子矩陣
文獻探討(4/5) • 有2種方法可以估計低排名的張量 • 假設 和 都是convex,則以下公式也為convex,但該方法需要 的記憶體空間。 V: 字集數量 : 可行的set
文獻探討(5/5) • 給予比較高排名約束: • 這種結果在實踐中解決了問題多次被不同和最好的解答使用。
研究方法(1/5) • LRLM是代表在n-gram張量因素的機率: :非負整數的權重值 F(i):因子矩陣
研究方法(2/5) • 建造一個使用標準n-gram Markov assumption排序
研究方法(3/5) • 期望最大化的方式來訓練模組: • 給定模型參數,並分配每個元件 給每個元件r。
研究方法(4/5) • 給予任務Υ,重新計算因子矩陣F(i),非負元件的權重λ • 回到第一步,一直做到perplexity開始增加。
研究方法(5/5) • 上述訓練方法只能找到局部最佳。 • 為了避免零組件模型,增加一個小數的值量給每個分佈
實驗結果(1/4) • 實驗工具 • 使用LDC英語廣播的語音資料,以廣播談話或talkshows當作資料庫來源
實驗結果(2/4) • 使用不同的模組,所得到的結果 • B2:bigram標準模組 • B3:trigram標準模組 • LR2:bigramLRLM模組 • G3:trigram一般模組
實驗結果(3/4) • 在不同排名下,LRLM的perplexity • 一上圖所示,選用Rank為250混合組件次最佳的。
實驗結果(4/4) • 隨機從LRLM混合成分所提取出來的樣本
5.結論 • 優化了低排名的目標,使用一個考慮聯合機率分布的低順位張量表示。 • 替初始化方法找到更好的局部優先。