290 likes | 393 Views
雙語對應語料庫檢索研究. Reporter: Yu Lun Kuo (D95922037) E-mail: sscc6991@gmail.com Date: June 14, 2007. 雙語庫檢索平台研究. 雙語對應語料庫是信息處理研究的重要基礎 雙語對應語料庫檢索平台是基於大規模雙語語料庫的檢索工具 輔助翻譯 雙語詞典編纂 漢英對比研究 辭典編纂人員可從語料庫中選擇有代表性的高頻用例. 模糊檢索和複雜檢索. 運算符表. 模糊檢索. 『*』 指出指定的焦點詞 『!』 英文模糊檢索
E N D
雙語對應語料庫檢索研究 Reporter: Yu Lun Kuo (D95922037) E-mail: sscc6991@gmail.com Date: June 14, 2007
雙語庫檢索平台研究 • 雙語對應語料庫是信息處理研究的重要基礎 • 雙語對應語料庫檢索平台是基於大規模雙語語料庫的檢索工具 • 輔助翻譯 • 雙語詞典編纂 • 漢英對比研究 • 辭典編纂人員可從語料庫中選擇有代表性的高頻用例
模糊檢索和複雜檢索 • 運算符表
模糊檢索 • 『*』 • 指出指定的焦點詞 • 『!』 • 英文模糊檢索 • “! be” “be”, “is”, “are”, “were”, “been”等be的一系列詞形變化後對應的單詞 • 中文模糊檢索 • “! 農” “農村”, “農業”, “貧農” 等包含農的中文詞 • 『/』 • “鎖/v” 動詞“鎖”
複雜檢索 • 『+』 • “民主+作風” “民主作風” • 『%』、『-』 • “as far as” • “as%2as” as well as, as soon as, as long as • “as%2as-well” • 『|』 • or運算 • 中國|美國
因為常會出現如 “A..…B”型的語句,所以允許在表達式中出現數字 • 如: 檢索 “因為….所以” • 表達式: “因為+10所以” • 運算符Priority • 最高: 『*』,『!』,『/』 • 次高: 『+』,『%』,『-』 • 最低: 『|』
例: !A + 5*B –C • 找到運算符『*』,獲得焦點詞B • 檢索項『! A』、『5B』、『C』 • 運算符『+』、『-』 • 從檢索取第一項『! A』 result1 • 取運算符『+』、檢索項『5B』,在result1基礎獲得B距離 !A五個單詞內的結果 result2 • 取運算符『-』、檢索項『C』 ,在result2基礎獲得 !A、B單詞間不出現C result3
漢英近義句翻譯檢索 • 英漢電子辭典可以用來搜尋平行對應語料庫中對應的中英文詞語,進而猜測句子的對應 • 精確匹配 • 只能搜尋到有限的翻譯對應 • 部分匹配 • 搜尋到較多的翻譯對應 • 可能與上下文不合造成對應錯誤
統計方法 • 優點: 只需要大量語料庫 • 句子長度的關連性 • 原文某一句較長,那翻譯的句子應該也會比較長 • 詞的頻率與分布情形 • 根據詞在文章中出現位置的分布情形與出現頻率
句子長度關聯性 (1/2) • Gale & Church (1993) • 加拿大國會英法雙語資料
句子長度關聯性 (2/2) • Gao (1998) • 中英雙語語料,中文句點或逗點作單位 • 中文句點 • 中文逗點
詞的頻率與分布情形 (1/3) • 缺點: (Fung & Church (1994)) • 受『頻率』『語系』『文類』『風格』影響很大 • 只能抽取頻率不高不低的詞彙 • 翻譯需透過上下文判斷 • 如何有效結合『統計』與『語言知識』
詞的頻率與分布情形 (2/3) • Fung & Church • 如果有兩篇互相對應的文章,某語言的一個詞與另一語言的一個詞在某些區段一起出現的機率大於分別出現的機率 • 詞頻太高或太低都不適合此演算法 • 太低 – 可能是巧合 • 太高 – 可能是功能詞,必須先排除掉
詞的頻率與分布情形 (3/3) • Fung & Church • 結合mutual information與T-score兩個統計方法 • Mutual information • Log2 ((P(A∩B) / P(A)*P(B)) = Log2 (f(x,y) / f(x)*f(y)) • 數值越高表示詞的關連性越高,當語料庫夠大時,數值大於1.65表示兩個詞常常一起出現 • T-score • T值大於1.65時,表示有95%的信心證明差異存在
詞的頻率與分布情形 • Gao (1998) 改良Fung & Church (1994)方法 • 計算中文與 英文的文章段落數目是否一樣 • 收集數十篇對應文本,再以中文與英文詞出現再同一文本的機率來過濾Fung & Church (1994)演算法所得到的結果 • 精確度提升至90%以上 • 上下文 • 完全字符串匹配 • 部分字符串匹配 • 排除功能詞 ex.的 • 找出相鄰兩個英文詞至少有一個字詞與詞典翻譯相吻合的連續詞 (*)
Gao’s Future Work • 以字為單位比對 • 上班 vs. 上海 • 中國 vs. 國中 上海 vs. 海上 • 以詞為單位比對 • 把 手舉起 vs. 把手 舉起 • 以詞為單位比對,但詞序不同 • 信用卡遺失該怎麼處理 vs. 該怎麼處理信用卡遺失 • 同義詞組而非同義辭 • 她數學不及格 vs. 她數學被當 • 目前一對一 多對多
一般而言,詞典中收錄的詞條以單詞為主 • 但通常也會收錄包含兩個乃至多個單詞的固定搭配 • Take take after (相似), take up (佔用) • 打 打瞌睡,打落水狗,打鴨子上架
雙語對應詞典詞條 (PLE) • 雙語語料的預處理 • 漢文: 中文切詞、詞性標注 • 英文: 斷詞、形態分析、詞性標注 句子對齊 中文標注 英文標注 漢語多詞組合單位識別 英語多詞組合單位識別 對應詞典詞條提取
關聯度度量 • X, Y為兩個隨機事件 • a: 所有試驗中,事件X和Y共同出現次數 • b: 所有試驗中,事件X出現但Y不出現次數 • c: 所有試驗中,事件X不出現但Y出現次數 • d: 所有試驗中,事件X和Y均不出現的次數
關聯度度量方法 • 點式互信息 • DICE係數 • 統計值 • 對數可能性分值
範疇假設 • 英語名詞 漢語名詞 • 英語結構 (JJ+NN) 漢語結構 (a+n / b+n) • 準確率下降4%、效率提升200%