基于上下文和语义信息的跨领域中文分词

NLP&MT 基于上下文和语义信息的跨领域中文分词报告人：张婧导师：黄德根教授学校：大连理工大学研究领域：自然语言处理

NLP&MT 主要内容 • 中文分词概况 • 中文分词的一大挑战 • 本文主要方法 • 参考文献

NLP&MT 中文分词概况中文分词的主要技术：基于规则的方法基于统计的方法规则与统计相结合的方法基于序列标注的机器学习方法[1-2] 基于字标注的方法[3-5] 基于子词标注的方法[6-8] 本文所用的方法中文分词的技术难点：未登录词、歧义、规范等

NLP&MT 主要内容 • 中文分词概况 • 中文分词的新挑战 • 本文主要方法 • 参考文献

NLP&MT 中文分词的一大挑战跨领域分词的一个显著特点是：一个特定领域文章中的通用词和术语较多，这些领域性OOV是基于某个特定领域的，并且可能会在其所属领域的某一上下文内多次出现。 • 在现实应用中，需要分词的绝大部分文本并不带有来源、主题等标记数据[9]。 • 分词系统不能预先把所有可能的文本种类都训练好[9]。 • 分词系统能贡献最高价值，发挥最高效益时，是针对新主题，新来源，带有许多未登录词的文本[9]。因此，领域适应性已经成为中文分词面临的一大挑战[9]。

NLP&MT 模型及特征上下文及语义信息分词算法流程实验结果及总结主要内容 • 中文分词概况 • 中文分词的新挑战 • 本文主要方法 • 参考文献

NLP&MT 本文主要方法 • 模型及特征 • 上下文及语义信息 • 分词算法流程 • 实验结果及总结

NLP&MT 本文主要方法 ——模型及特征模型：本文采用字词联合的CRFs模型。先将使用基于字的CRFs获得的候选词放入词图，然后再使用基于词的CRFs模型对词图中的词进行标注。训练时，使用最大似然估计，为了避免训练过载，使用高斯先验对参数进行规格化。解码时，用Viterbi算法。特征模板： • 基于字的CRFs特征模板 • 基于词的CRFs特征模板

NLP&MT 表1 基于字的CRFs特征模板本文主要方法 ——模型及特征 • 基于字的CRFs： • 使用的特征模板：C-1, C0, C1, C-1C0, C0C1, C-1C1 ,T-1T0T1，并且加入AV[16]特征。

NLP&MT 表2 基于词的CRFs特征模板本文主要方法 ——模型及特征基于词的CRFs：采用的具体特征模板有：W0，T0，W0T0，T0T1，W0W1，其中，W表示词形，T表示词性，下标0和1分别表示相邻两个词的前词和后词。

NLP&MT 本文主要方法 ——上下文及语义信息上下文信息： • 提出假设：如果某个词在篇章中出现了一次，那么将会增加它下一次出现的可能性。 • 也就是说，若某个字串在上下文中多次被当作候选词，则它很可能就是一个词。对此，本文用上下文变量来量化这个假设。 • 上下文变量记录候选词的词形(w)，词性(t)，词出现的难易程度(Cost)，该词作为候选词的频数(Frequency)，该词作为最终切分路径中词节点的频数(rNum)。 • “日本金融特任大臣①龟井静香(Shizuka Kamei) 周五 (3月19日) 发表讲话……②龟井静香此前就一直呼吁推出新一轮的大规模经济刺激计划……③龟井静香表示，昨日发布的土地价格调查报告显示……④龟井静香还呼吁日本央行直接买入国债来为政府赤字提供融资……金融市场对⑤龟井静香的评论应该不会有太大反应……”.

NLP&MT 表3 同义词词林编码规范本文主要方法 ——上下文及语义信息语义信息： Al05A01= 模范标兵表率榜样师表轨范楷范英模典型丰碑 Al05A02= 劳模劳动模范在查找某个候选词在词林中的同义词时，遵循着就近原则，因为两个同义词集合距离越近，其词义信息越接近。

NLP&MT 图1 词图示例本文主要方法 ——分词算法流程跨领域分词的分词算法流程如下： Step1.使用基于字的CRFs得到3-Best路径，并且将路径中所有的节点加入到词图中。

NLP&MT (1) 本文主要方法 ——分词算法流程 Step2.为词图中的每个候选词赋予属性和代价。具体步骤为： ①若候选词为系统词典中的词，则直接将该词在系统词典中的属性及词代价赋给该候选词； ②若候选词不在系统词典中，但在上下文信息词典中，则采用公式(1)对该候选词的出现代价进行加权；其中， frequency是该候选词出现的频率； rNum是候选词作为正确结果的频率； cost’(w)是分词路径中候选词的出现难易程度；cost0(w)为上下文变量表中词条的原始代价。

NLP&MT (2) 本文主要方法 ——分词算法流程 ③若候选词不在上述两个词典中，则到同义词词林中查找该候选词的同义词，若能在系统词典中找到其同义词，则用系统词典中该同义词的相关信息代替该候选词相对应的信息； ④若无法通过上述方法找到或代替该候选词，则用未登录词分类处理该候选词。具体分为四类：汉字，字母，数字，标点符号。它们的词性，分别赋为名词，字符串，数字，标点，而词出现的代价为词典中该类词性词语代价的平均值。 Step3.构建词图后，用Viterbi算法根据公式(4)计算每条路径的分词代价，找到一条最佳路径，即代价最小的分词路径。公式（4）中的Cost(wi) 和TransCost(ti,ti+1) 分别通过公式（2）和公式（3）计算得到。

NLP&MT (3) (4) 本文主要方法 ——分词算法流程其中，U(w)为关于当前词w的一元特征集合， B(t1,t2)是关于相邻的两个词的属性（这里仅为词性）的二元特征集合，λfk为特征fk在模型文件中的相应权重，变量factor为将特征权重转换为代价的放大系数。从以上公式可以看出，由于所有的特征函数都为二值特征函数，所以在计算词条的代价时，词出现的代价等于该词能表示的所有一元特征权重之和，属性集之间的转移代价为两属性集所能表示的二元特征函数的权重之和。

NLP&MT 本文主要方法 ——实验结果及总结实验数据： • 系统词典是从2000年1-6月份的人民日报中抽取出来的，词性体系为相应的北大词性体系，词典中共含有85,000个词。 • 本文采用的语义资源是同义词词林（扩展版），共包含77,343条词语。http://ir.hit.edu.cn • SIGHAN 2010的跨领域简体中文训练和测试语料。 • 训练基于词图的CRFs模型时，所用的语料是有词性标注的评测语料（1998年1月份人民日报）。

NLP&MT 本文主要方法 ——实验结果及总结

NLP&MT 本文主要方法 ——实验结果及总结 • 该方法用基于字标注的CRFs模型得到3-Best路径，将路径中包含的所有候选词添加到词图中，充分利用篇章的上下文信息和同义词语义信息，在词的层面上从词图中选择代价最小的路径作为最终的分词结果。 • 该方法很好地发挥了基于字标注的方法在发现未登录词上的能力，而且在分词过程中充分利用词汇的领域性信息，提高了领域性分词的分词结果。 • 用Bakeoff 2010简体中文测试语料进行开式测试，结果表明：该方法在四个测试领域中的三个领域的F值和OOV的召回率好于2010参加评测的最好成绩。 • 本文获国家自然科学基金(No.61173100，No.61173101)资助。

NLP&MT 主要内容 • 中文分词概况 • 中文分词的新挑战 • 本文主要方法 • 参考文献

NLP&MT 参考文献 [1] Xue Nianwen. Chinese word segmentation as character tagging. Computational Linguistics, 2003, 8(1): 29-48. [2] Lafferty J, McCallum A, Pereira F. probabilistic models for segmenting and labeling sequence data // Proceedings of ICML2001. Conditional Random Fields: San Francisco: Morgan Kaufmann, 2001: 282-289 [3] Tseng H, Chang Pichuan, Andrew G, et al. A conditional random ﬁeld word segmenter for SIGHAN bakeoff 2005 // Proc of the 4th SIGHAN Workshop on Chinese Language Processing. Jeju Island: ACL, 2005: 168–171 [4] Peng Fuchun, Feng Fangfang, McCallum A. Chinese segmentation and new word detection using conditional random ﬁelds // Proc of COLING 2004. San Francisco: Morgan Kaufmann, 2004: 562-568 [5] Low J K, Ng H T, Guo Wenyuan. A maximum entropy approach to Chinese word segmentation // Proc of the 4th SIGHAN Workshop on Chinese Language Processing. Jeju Island: ACL, 2005: 161–164 [6] Huang Degen, Tong Deqin. Context Information and Fragments Based Cross-Domain Word Segmentation. China Communications, 2012, 9 (3): 49-57 [7] Zhang Ruiqiang, Kikui Genichiro, Sumita Eiichiro. Subword-based tagging by conditional random fields for Chinese word segmentation //Proc of HLT-NAACL-2006. Morristown, NJ: ACL, 2006: 193-196 [8] 黄德根, 焦世斗, 周惠巍. 基于子词的双层CRFs中文分词. 计算机研究与发展, 2010, 47(5): 962-968 [9] 黄居仁. 瓶颈_挑战_与转机_中文分词研究的新思维//中国计算机语言学研究前沿进展（2007-2009）: 北京: 中国中文信息学会, 2009: 14-19 [10] Gao Qin, Vogel S. A Multi-layer Chinese Word Segmentation System Optimized for Out-of-domain Tasks // Proc of CIPS-SIGHAN Joint Conference on Chinese Processing. Beijing: ACL, 2010: 210-215 [11] Huang Degen, Tong Deqin, Luo Yanyan. HMM Revises Low Marginal Probability by CRF for Chinese Word Segmentation. [C] // Proc of CIPS-SIGHAN Joint Conference on Chinese Processing. Beijing: ACL, 2010: 216-220 [12] Zhang Chongyang, Chen Zhigang, Hu Guoping. A Chinese Word Segmentation System Based on Structured Support Vector Machine Utilization of Unlabeled Text Corpus // Proc of CIPS-SIGHAN Joint Conference on Chinese Processing. Beijing: ACL, 2010: 221-227 [13] Zhang Huaping, Gao Jian, Mo Qian, et al. Incporating New Words Detection with Chinese Word Segmentation // Proc of CIPS-SIGHAN Joint Conference on Chinese Processing. Beijing: ACL, 2010: 249-251

NLP&MT 感谢各位专家请批评指正

基于上下文和语义信息的跨领域中文分词

基于上下文和语义信息的跨领域中文分词

Presentation Transcript