中文文本自動分詞與標注第 9 章漢語自動分詞軟件系統

中文文本自動分詞與標注第9章漢語自動分詞軟件系統中文文本自動分詞與標注第9章漢語自動分詞軟件系統 CPTWT Presentation R95921094 楊祝晉

摘要 • 自80年代初提出漢語自動分詞系統以來，已經提出了多種分詞方法 • 例如：正向最大匹配、逆向最大匹配、窮多層次列舉、鄰接約束、聯想-回溯、詞頻統計、專家系統、類神經網路等方法。 • 不同的分詞方法模擬了分詞行為的不同面向，取得了不同的成效，並且已應用在不同用途的中文訊息處理系統上。 • 本次報告主要介紹二種分詞軟體系統

Outline • 字串頻率統計和詞形匹配相結合的分詞系統 • 系統結構及其各種模型的主要功能 • 實驗結果及分析 • 基於聯想-回溯方法的漢語自動分詞系統 • 系統結構及分詞方法 • 分詞知識庫的多層次建構

Part I字串頻率統計和詞形匹配相結合的分詞系統系統架構介紹實驗結果分析與討論

原文單字數詞詞典切分標記資料庫詞綴集 1. 初步處理模型單字量詞詞典字串序列 2. 字串頻率統計臨時詞典候選詞字串序列靜態常用詞詞典 3. 分詞處理模型分詞序列系統結構及處理流程 • 系統架構圖

系統結構說明 • 系統對原文進行三遍掃描： • 第一遍，利用切分標記將原文分成較短字串序列 • 第二遍，根據每個短字串的子字串在上下文中的頻率計算其權重值，權重值大的子字串視為候選詞 • 第三遍，利用候選詞和常用詞典對短字串進行切分 • 三個處理模型： • 初步處理模型、字串頻率統計模型、分詞處理模型 • 二個資料庫： • 切分標記庫、詞綴集 • 四個詞典： • 單字數詞詞典、單字量詞詞典、臨時詞典、靜態常用詞詞典

1. 初步處理模型 • 初步處理模型 • 原文分成較短的字串序列集 • 顯式切分標記：標點、數字、外文、其他非漢字符號 • 隱式切分標記：出現頻率高、構詞能力差的單字詞(客觀) • 例如：「的」 • 平均每二十五個字就會出現一次 • 構詞能力並不強 • 本系統共收入 181條規則

隱式切分標記 • 「的」字的規則： • 判斷方式： • 若 LR 判斷滿足且 L* 判斷滿足 • 在切分標記的左邊將字串切開 • 若 LR 判斷滿足且 *R 判斷滿足 • 在切分標記的右邊將字串切開 • 「單字數詞 + 單字量詞」 • 將量詞視為切分標記，在量詞的左右兩邊將字串切開 • 此系統共收集了 115 個常用量詞

2.字串頻率統計 • 計算各字串序列的所有長度大於1的子字串在局部上下文200字左右(經驗值)中的出現次數，並根據字串頻率和字串長度做加權函數 W = F * L3(F為字串頻率亦即此子字串在上下文中出現的次數；L為字串長度)。若計算出來的權重超過給定的預設值，則此子字串將這些詞語存入臨時詞庫中 • Sliding Window當前字串之前後各二十個字串 • 將 String 以 Hashing方式存入 Slot • 每個 Slot 內容序對 = 該字之 Sliding Window 序號 + 該字在字串中的序號

字串頻率計算說明 • 「語言」的頻率計算為 3 • 權重函數：3 * 23 = 24 • 權重值大於 Threshold Value 時，則該字串被認定為詞，需加入臨時詞庫，待分詞結束後自動清除 • 頻率大於 Threshold Value 且不被其他字串完全覆蓋則被視為潛在的候選詞 • S 為 T 的子字串，且 S 的頻率不大於 T的權重值時，稱 T完全覆蓋S • 例如：「俄羅斯」(權值81)、「俄羅」各出現3次；則稱「俄羅斯」完全覆蓋「俄羅」

3. 分詞處理模型 • 同時借助各字串的候選詞集(局部資訊)、臨時詞庫(全域資訊)、和一部含 5000 常用詞的詞典(背景資訊)，對字串進行切分。 • 經此分詞後仍未做標記的相鄰單字視為一個權重值很低的詞 • 例如：「觀看」瑪麗「的」「表演」，瑪、麗兩個字均不是詞，且「瑪麗」做為一個字串的頻率小於3，則將「瑪麗」視為一個詞

4. 實驗結果與分析(1/3) • 實驗結果 • 本系統對十篇中文文章，包括科技文獻、新聞報導、政論、故事等題材進行了分詞實驗 • 分詞正確率平均達 98.4 % • 平均分詞速度為每秒236個字 • (IBM-PC386)

4. 實驗結果與分析(2/3) • 分析與討論 • 切分精準度高：因為這些詞的頻率較高得以識別，或是這些詞的頻率夠低，當他們周圍的詞均已得到正確切分後，自然將該字串合成一個詞 • 設立臨時詞典可使分詞過程利用全域上下文的頻率統計結果，正確切分依靠局部上下文所無法解決的切分問題 • 例如：如果利用了臨時詞典中「軍事基地」，可避免切分成「軍事」「基地」。

4. 實驗結果與分析(3/3) • 切分標記將長字串分割為短字串，大幅度減少了字串的子字串數量。 • 設字串S的長度為 n ( n > 1 )，則S包含 n * ( n + 1 )/2 個子字串 • 若將S分為兩個短字串，長度分別為 m ( 0 < m < n )和 n –m，則兩個短字串所擁有的子字串數之和為 m * ( m + 1 ) / 2 + ( n - m) * ( n – m + 1 ) / 2 比S 所含的子字串數少 m * (n – m )個，即一個長串分成兩個短字串後，子字串總數減少的數目恰好等於兩個短字串的長度乘積。 • 例如：長字串長度為10，含子字串數為 55，二個短字串的長度各為 5，含子字串數為30，子字串數共減少了 5 * 5 = 25個 • 子字串的數量減少為頻率統計節約了時間。 • 切分錯誤的主要原因是某個子字串由於在上下文中多次出現而獲得較高的權重值，以至於被切分成詞。 • 例如：在「聚合分析」、「組合分析」雖然經常出現，但「合分析」的權值可能更高，可被切成「聚」「合分析」、「組」「合分析」。因為多次鄰接出現，使這幾個詞串聯而成的詞串的權重值很高，因而被成一個詞。

Part II基於聯想-回溯方法的漢語自動分詞系統 系統結構及分詞方法分詞知識庫建構

簡介 • 本節介紹一個基於聯想-回溯方法的漢語自動分詞系統：ABWS(Association-Backtracking Word Segmentation) • 簡稱為AB算法 • 不過分依賴於詞表，而是較多利用漢語本身的知識，如：構詞法、句法等 • 提出一些處理歧義結構的實用分詞規則，以提高分詞速度和分詞正確率 • 由於分級建庫和兩次掃描增加了時間與空間複雜度，但對小規模語料處理上還是可行的。 • 主要是採用切分標記法和多次列舉的方法：經實用中測試，分詞正確率可達98%左右。

人工干預 輸入輸出分割模型細分模型初步處理模型規則調用模型特徵詞庫實詞詞庫規則庫 ABWS系統架構圖 • 系統架構

系統五大功能模組(1/3) • 1. 預先處理模型 • 將原文依各種分解成獨立的、可被切分程序直接處理的字串序列，並保留原文中的所有部分，如：標點符號、數字、字母等 • 非漢字符號冠以特殊標記處理 • 2. 分割模型 • 以特徵詞庫中的詞作為詞切分標記，依靠聯想規則將一個字串分割為多個更小的子字串 • 對特徵詞庫中不同類型的詞採用不同的處理方法 • 如對前綴或前置字，分割標誌設在該字之後，對重疊詞、連綿詞等其他特徵詞，分割標誌設在該詞的兩端。

系統五大功能模組(2/3) • 3. 細分模型 • 依據實詞詞庫將分割模型得到的子字串切分為語詞 • 當遇到歧義組合結構或產生拒分現象時，便分別轉向4和5 • 4. 規則調用模型 • 用(3)提示的信息，調用相對應的規則處理歧義組合結構，或調用通用規則切分出類型詞，如：數字詞。

系統五大功能模組(3/3) • 5. 人工干預模型：常由詞典收詞不足引起 • 修改實詞詞庫 • 當人工干預是由詞庫收詞不足或不當而引起時，我們便在詞庫中增加新詞或修改詞庫中的內容。人名、地名常常會引起這種人工干預。 • 例如：「台灣女歌星王秀如一曲”千言萬語”贏得全場熱烈掌聲」，若「台灣」未收入詞庫，則需人工干預將其加入詞庫。 • 追加臨時詞庫 • 上例中，人名「王秀如」同樣需要人工干預，但因「王秀如」是低頻詞，故不將其加入實詞詞庫，而是收入臨時詞庫，待一段文字處理完後將其刪除。 • 修改規則庫 • 當人工干預是由句法歧義句段引起時，其原因在於規則庫的不完善，此時我們便修改已有的規則或增加新的規則。 • 修改特徵詞詞庫 • 特徵詞詞庫中的詞絕大多數不是絕對的，假如情況考慮不周，也將引起人工干預。例如：「葡萄牙外長取消北京之行同兩國關係現狀無關」，「葡萄」是作為連綿詞存放在特徵詞詞庫中的，若未考慮到例外詞「葡萄牙」則「葡」字處必導致人工干預，此時，我們需將例外詞「葡萄牙」加入。

說明 • 本系統中其基本思想可描述為：首先將待切分的漢字符號串序列依特徵詞詞庫分割為若干子串，每個子串或為詞或為詞群；然後利用實詞庫和規則庫再將詞群細分為詞。分詞時，我們利用了一定的語法知識。聯想回溯機制同時作用於分割和細分兩個階段，旨在有效地解決歧義組合結構的切分問題。 • 聯想網絡描述每個虛詞的構詞能力，聯想推理則是利用相對應的聯想網絡判定該虛詞究竟是單獨成詞還是作為構詞成分構成了其他的詞。 • 當一個句子的切分雖以在句法平面中確定時，我們便借助於語義及上下文信息來進行判定。回溯機制主要用於處理語義歧義句子的切分。如「原子能發電」可切分為：原子能/發/電、原子/能/發/電。本系統利用回溯機制依次對各種分法進行測試，直至找到正確答案為止。不難看出，聯想和回溯機制，提供了自動檢錯和自動糾錯的功能。

分詞知識庫的建構 • 特徵詞詞庫 • 所謂特徵詞，泛指那些具有可作為分割標誌的某種特徵的詞，主要包括詞綴、虛詞、重疊詞、連綿詞等。 • 使用頻度高，或可用規則描述 • 為了避免歧義切分，我們建立每個詞的聯想網絡，列出該特徵詞的例外情形，並附有相對應的處理規則。這些規則有的提煉於構詞法、構形法以及詞的搭配關係，有的則源於大量的實驗數據。現以詞綴為例加以說明 • 例如：「子」一般認為是後綴詞素，故將它收在特徵詞詞庫中

分詞知識庫的建構 • 實詞詞庫 • 使用率高：常用詞 • 覆蓋率高：收集專業詞語 • 由於固定搭配的詞組、成語、俗語以及古漢語的殘留成分在現代漢語占有相當比例，且這些固定用語通常具有特定的含義，按常規的方法進行切分顯然是不合理的，例如：「桃李滿天下」不應再分為「桃李/滿/天下」。因而，詞庫中應適當地收錄這些成分。

分詞知識庫的建構 • 規則庫 • 交集型歧義字段切分規則 • 組合型歧義字段切分規則 • 前綴詞規則 • 後綴詞規則 • 重疊詞規則

分級建庫的優點 • 特徵詞靜態數目少，但均為高頻詞，在第一次掃描時便將其分割出來，提高了分詞速度 • 由於利用規則描述了一些無法逐條收入詞庫的詞(重疊詞、數詞等)，一方面壓縮了詞庫規模，另一方面又增強了詞庫的使用效果，提高了分詞的正確率 • 多數歧義組合是由特徵詞引起的，針對特徵詞制定詳儘的聯想規則，既是切實可行，又可更有效地解決歧義組合結構的切分。並且針對語法功能不同的特徵詞和實詞分別制定規則以可以提高規則的有效性 • 知識庫的三個層次間既相互聯繫又相互獨立，因此在程序調試進行期間，哪一層次發生問題，便單獨修改哪個層次，管理和維護較為方便。各庫都是以動態方式建造的，可隨時向其中添加詞和規則

Thanks for your attention

中文文本自動分詞與標注 第 9 章 漢語自動分詞軟件系統