1 / 19

Low Rank Language Models for Small Training Sets

Low Rank Language Models for Small Training Sets. 出處 : IEEE Signal Processing Letters 作者 : Hutchinson, B. Ostendorf, M. Fazel, M. 報告人 : 許仕衡 學號 :MA0G0102 報告日期 :2012/1/9. 大綱. 簡介 文獻探討 研究方法 實驗結果 結論. 簡介 (1/2). 語言模組平滑法,且對大型資料集訓練的效能顯著。

Download Presentation

Low Rank Language Models for Small Training Sets

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Low Rank Language Models for Small Training Sets 出處: IEEE Signal Processing Letters 作者:Hutchinson, B. Ostendorf, M. Fazel, M. 報告人:許仕衡 學號:MA0G0102 報告日期:2012/1/9

  2. 大綱 • 簡介 • 文獻探討 • 研究方法 • 實驗結果 • 結論

  3. 簡介(1/2) • 語言模組平滑法,且對大型資料集訓練的效能顯著。 • modified Kneser–Ney方法,在不同訓練集的來源中,仍可維持一定的效能,儘管其他的方法在大型語言模組中能更有效的訓練。

  4. 簡介(2/2) • 大型訓練集是有價值的,但在某些情況下,它無法被使用: • 為專門交際的角色或目標訓練一個新的模組。 • 本文提出了可以精確控制模組複雜性的方法,low rank language models(LRLM)可以在小範圍的資料集裡提供更好的效能。

  5. 文獻探討(1/5) • 在每個n-gram的語言模組隱含定義一個n階的聯合機率張量(joint probabilitytensor): • 當n=1時,稱為 unigram • 當n=2時,稱為 bigram • 當n=3時,稱為 trigram • n-gram的定義,就是這個字是否和前面n-1個字有關。

  6. 文獻探討(2/5) • 說明在條件機率矩陣下,排名平滑下降的現象

  7. 文獻探討(3/5) • 定義n階的張量 為: ⊗ :表示張量的積 :非負整數的權重值 F:因子矩陣

  8. 文獻探討(4/5) • 有2種方法可以估計低排名的張量 • 假設 和 都是convex,則以下公式也為convex,但該方法需要 的記憶體空間。 V: 字集數量 : 可行的set

  9. 文獻探討(5/5) • 給予比較高排名約束: • 這種結果在實踐中解決了問題多次被不同和最好的解答使用。

  10. 研究方法(1/5) • LRLM是代表在n-gram張量因素的機率: :非負整數的權重值 F(i):因子矩陣

  11. 研究方法(2/5) • 建造一個使用標準n-gram Markov assumption排序

  12. 研究方法(3/5) • 期望最大化的方式來訓練模組: • 給定模型參數,並分配每個元件 給每個元件r。

  13. 研究方法(4/5) • 給予任務Υ,重新計算因子矩陣F(i),非負元件的權重λ • 回到第一步,一直做到perplexity開始增加。

  14. 研究方法(5/5) • 上述訓練方法只能找到局部最佳。 • 為了避免零組件模型,增加一個小數的值量給每個分佈

  15. 實驗結果(1/4) • 實驗工具 • 使用LDC英語廣播的語音資料,以廣播談話或talkshows當作資料庫來源

  16. 實驗結果(2/4) • 使用不同的模組,所得到的結果 • B2:bigram標準模組 • B3:trigram標準模組 • LR2:bigramLRLM模組 • G3:trigram一般模組

  17. 實驗結果(3/4) • 在不同排名下,LRLM的perplexity • 一上圖所示,選用Rank為250混合組件次最佳的。

  18. 實驗結果(4/4) • 隨機從LRLM混合成分所提取出來的樣本

  19. 5.結論 • 優化了低排名的目標,使用一個考慮聯合機率分布的低順位張量表示。 • 替初始化方法找到更好的局部優先。

More Related