台語文語料處理讀書報告 May 31st, 2007

台語文語料處理讀書報告May 31st, 2007 學生 : 沈中琛 , P95943009

第五章語料庫方法在計算語言學中的應用第二節 漢語名詞短語識別研究基本名詞短語- BaseNP本節中,問題的核心在於如何從文本中正確地識別出“基本名詞短語 (BaseNP)”

* Church把英語的基本名詞短語定義為 : “非嵌套的名詞短語”1.漢語BaseNP的定義* 越軍依限定性定語的概念,提出漢語基本名詞短語的形式化定義: BaseNP ->baseNP+baseNP BaseNP ->baseNP+名詞/名動詞BaseNP ->限定性定語+baseNP BaseNP ->限定性定語+名詞/名動詞(限定性定語->形容詞,動詞,數量詞,處所詞,….)

2.BaseNP的句法組成模板 建立在詞類及短語標記基礎上的上下文無關規則,叫作句法組成模板.只是構成BaseNP的必要條件,而非充分心要條件例如: IBM 公司宣布…符合模板 : BaseNP ->N+V,但是是非語法形式

3.BaseNP的句法組成模板的抽取模板的抽取工作分兩步進行:a. 建立人工標注BaseNP的語料庫b. 依據語料庫的統計信息,對初始模板集合進行篩選,形成基本組成模板集合訓練語料庫中,統計得到407個baseNP句法組成模板, 出現次數超過5次的有64個,含蓋語料庫98.6%的baseNP,稱為基本模板.例: VN2+NG2(双音節名動詞+双音節普通名詞) 教育理論,調查報告,…

4.識別BaseNP的上下文有關規則baseNP識別模型示意圖4.識別BaseNP的上下文有關規則baseNP識別模型示意圖基本組成模板輸入文本 BaseNP初始標注生成新的轉換規則並用評價函數打分轉換規則空間本次標注結果正確答案獲取的轉換規則有序集選擇得分最高的規則應用當前規則刷新上次標注結果

第三節 基于結構詞義空間的漢語詞義排歧模型詞義排歧,指根據一個多義詞在文本中出現的上下文環境來确定其詞義代碼.

1.<同義詞詞林>簡介這部義類辭典把詞義分為大,中,小類三級 例如: 覺悟的義類代碼為”Ga15” 小類編碼Ga15 在<詞林>中的內容顯示為: Ga15 醒悟懂事 (兩個標題詞,分別代表這一小類以下的兩個詞群 ) 大類編碼G表示”心理活動” 中類編碼Ga表示”心理狀態” 因此,”覺悟”的完整義類代碼是Ga1501

<詞林>中,多義詞按其詞義被賦以不同的義類代碼 例如: “材料”在詞林中有三個義項.. (1)可以直接造成成品的東西(2)提供著作的內容的事物或可供參考的事實(3)比喻適于做某種事情的人材它們對應的義類代碼分別為”Ba05,Dk17,Al03 ”對材料一詞的詞義排歧過程,就是根據該詞出現的上下文給它一個相對應的義類代碼.為數不少的多義詞可以直接根據它們的詞性來辨識詞義,

2.<詞林>的向量空間表示 一個詞的詞義只能在它的應用中得以辨識,對其每次出現的上下文加以考察,就可以獲得該詞義同其他詞的搭配關係.由于一個詞的詞義可以用与其同現的一組搭配詞來描述,因此在數學上可以用一個多維向量來表示一個特定的詞義.這樣的向量定義為詞義向量.具体來說,一個詞義向量由多個分量組成,其中每個分量代表与這個詞義同現的一個搭配實詞,並成為整個詞義空間的一維.

任意一個搭配實詞xi与一個特定詞義s的同現概率P(s,xi)定義為該實詞在詞義向量中的權值.所以,一個詞義向量V的每個分量Vxi=P(s,xi).因此,詞義向量實質上是一個多維的實值向量.對詞義的描述,以如下兩個基本假設為依據,1.詞義相似,則它們的上下文也相似,詞義向量距離相近.2.意義相同或相近的詞,在詞義空間上為一個密集的點陣.從語料庫中,執行向量距離之聚類實驗發現結果,與<詞林>劃分之同義詞集十分接近.

3.基于結構詞義空間的詞義排歧模型任意一個同義詞集中總有一些詞是單義詞,尋找這些單義詞 在語料庫中的同現實詞並構造它們的詞義向量,可以自動完成. 特征穫取多義詞及其上下文單義詞向量特征選擇特征表示語義類向量特征加權多義詞向量相似度計算詞義判斷特征獲取:單義詞前后同現實詞列為侯選特征特征選擇:依據多義詞的多個義類代碼,從侯選特徵中選出有表徵作用的詞,作為各語義類的特征集.

4.結論 *采用基于結構詞義空間的詞義排歧模型,可以免除繁重詞義標注及排歧知識庫. *語義類向量層次愈低(小類及次小類)正確率愈高 *詞義排歧結果的优劣与多義詞本身的語法特性有關 *多義詞所屬各語義類之間的距離愈小,詞義排歧結果愈差.

The EndThank You

台語文語料處理讀書報告 May 31st, 2007