第十四届汉语词汇语义学国际研讨会 CLSW2013 词汇计量研究与常用词知识库建设

国家自然科学基金项目 “ 汉语全文词义标注关键技术研究” (曲维光 2013-2016) 国家自然科学基金项目 “ 隐喻识别与理解的理论与方法研究 ” ( 王治敏 2012-2015 ）国家863计划 “大规模汉语语义基础资源库和知识库设计构建及工具平台 ” （王厚峰 2012-2015）蒋经国国际学术交流基金 “ 历代语言知识库建置”计划“（罗凤珠 2009-2013）第十四届汉语词汇语义学国际研讨会 CLSW2013 词汇计量研究与常用词知识库建设俞士汶朱学锋北京大学计算语言学教育部重点实验室北京大学计算语言学研究所 Email: yusw@pju.edu.cn 2013年 5月 11日郑州大学

主要内容 • 词汇计量研究述评 • 词表常用性的计量表示 • 常用词表和“部件词” • 常用词知识库的总体设计与工程实践 • 结语与致谢

词汇计量研究述评 面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。一般地，自然语言处理的统计方法一定以语言的计量研究为基础。 • 国家语言资源监测与研究中心进行的词汇计量研究自2006年以来每年收集各类媒体语料约10亿汉字,在《中国语言生活状况报告》上发表了部分成果。从共时和历时两个角度进行研究。“覆盖整个语料80%的词种个数稳定在4500个左右，覆盖率达到90%的词种个数稳定在12000左右。可见，高频常用词语的数量相对稳定。” • 《常用词表（草案）》（2008，商务印书馆）简介 56008个使用频率高、适用范围广的词语，按“频序号”排列，有音序索引。汉字相同的同形词实际上只区分了读音不同的情况。 • 综合型语言知识库（CLKB，1986 —）的相关研究 “现代汉语多级加工语料库”与《现代汉语语法信息词典》以及“现代汉语语义词典”集成，可完成不同深度（词频，带词性词频，粗/细粒度的义项）的统计。均根匀度（张化瑞博士论文）词语的属性计量研究（如：名词直接受数词修饰，王萌博士论文）

词表常用性的计量表示 模糊概念“常用”的定量表述 • 言语的无限性与工程的有限性 ——常用词表L是有限的语料库 C 的函数（不指望一个常用词表是放之四海而皆常用的） • 覆盖系数δ（0≤ δ ≤ 1 ） ——常用词表L也是覆盖系数δ的函数（常用词表的长度不是恒定的） • 常用词表L是语料库C 和覆盖系数δ的二元函数 L=L( C, δ)

语料库C的简化表示（建模 modeling） C={uj，pj | 1≤ j ≤m } ，u, p都是m维向量。 u的分量 uj代表 C的互不相同的构成成分：字（字符串）——信息处理的对象切分单位（词、词-词性、词-词性-同形、词-词性-同形-义项）——语言信息处理的对象留下一个问题：切分单位 =词 ? 当i<>j, 则ui<>uj； p的分量pj为uj在语料库C中的(相对)频率p (uj)= pj，满足归一化条件，即将uj按pj的降序排列，于是有 C={uj，pj | 1≤ j ≤m } ，且当s<t时, ps≥pt（1≤ s ≤m , 1≤ t ≤m)

常用词表 L的构造性定义 为确定语料库 C关于覆盖系数 δ 的常用词表 L，要求找到一个正整数 K（1≤ K ≤m），使且， < δ 则常用词表 L= C（ δ）={uj，pj | 1≤ j≤K} 且 ‖L‖= K 。

反向考察：词表常用性的定量检测 设词表 D= {w}， w=(w1, w2, …, wi, …, wl), 当i<>j,则wi<>wj ; 语料库 C={u, f}，u=(u1, u2, …, uj, …, um),当i<>j,则ui<>uj； f=(f1, f2, … , fj, …, fm)， fj= f(uj)为uj在语料库C中的频次。令 s≡w∩u={sj | sj ϵw and sj ϵu }，（1≤ j ≤n, n ≤l且n≤m）且 f(sj)=gj， gj即sj所对应的某个uj的频次f(uj) = fj。词表一次覆盖率R1：R1 = n / m 词表多次覆盖率Rt：词典的有效率V: V= n / l R1, Rt, V 的值都在区间[0,1]上。R1, Rt 越大则覆盖率越高。若R1的值不大，而Rt 的值却大，表示词表 D 覆盖了语料库 C 的常用词。当 V 取理想值 1 时，表示词表 D 中的词在语料库 C 中都用到了。

回到问题：切分单位=词? 一词频统计与“部件词” 现在大规模自动进行的词频统计实际上是针对切分单位进行的。切分单位决定于语料库加工规范，而加工规范受不同的的应用目标所制约。不同的汉语语言学著作和词典对于汉语的词的界定不同。《现代汉语语法信息词典》GKB中的“词语”同基于GKB制作的基本标注语料库的“切分单位”之间也有诸多的差异。

回到问题：切分单位=词？ 基于1998年一年的《人民日报》，作为切分单位的“年”只有822次，比“楼、家乡、能源”等还少。原因是很多的“年”分散到 “一九九八年/t”、“一九九七年/t”等切分单位中去了。通常认知：名词“年”频次不仅是单独的“年/n”的次数，也包括在其他切分单位中出现的次数。基本数词的情况也是如此。 GKB收了“积极”、“积极分子”和“积极性”这3个词，也是切分单位，分别统计这3个词的频次，也影响 “积极”、“分子”、“性”的频次。

“部件词”的概念 “部件词”：年，一，积极，分子，性‥‥ “非部件词”：一九九八年，积极分子，积极性‥‥ 把一部词典收录的所有词语或语料中的所有切分单位看作词的全集，从中区分出 “部件词”和“非部件词”。“非部件词”是由“部件词”构成的。 “部件词”和“非部件词”之间的频次以及它们同总频次之间有以下 ①-④的关系。 ①部件词集U非部件词集=词的全集； ②部件词集∩非部件词集=θ（空集）。 ③ 在语料库中，部件词e的累计频次=部件词e本身的频次+所有包含e的非部件词w的频次。 ④ 一个非部件词拆分后，部件词的累计频次和总频次要重新计算：设某个非部件词 w 可拆分为 n 个部件词 ej（j=1，2，…，n），拆分前w的频次为f，每个ej的频次为fj ，所有词的总频次为F，拆分w后，每个ej的频次为fj’，总频次为F’，则fj’= fj+f ，（j=1，2，…，n）， F’=F+(n-1)* f .

基于“部件词”的常用词表的确定 常用词表的确立要基于频率等计量数据，还应该以“部件词”为主体。第一步：选择足够大的有限的现代汉语语料库C。第二步：对C进行多级加工。尽可能继承、利用既有成果。计算C的构成单元uj（j=1，2，…，m）的频次fj和所有构成单元的总频次F，按fj降序排列uj ，得到uj的列表。第三步：对每一个uj进行辨析，分出部件词和非部件词，将非部件词拆分为部件词（由于列表很大，需要对频次给出下限，频次少于下限的uj不予处理）。第四步：重新计算部件词的累计频次和由部件词构成的所有词语的总频次F’。第五步：根据每一个部件词ej的累计频次和总频次F’计算ej的频率pj ，按pj降序排列ej，得到部件词列表。第六步：考虑计算部件词的均根匀度，按均根匀度和频率的加权平均值调整部件词列表。第七步：给定覆盖系数δ，构造出基于部件词的常用词表。第八步：适当选择若干典型的常用非部件词，加进常用词表。注1：第六步可以省略。注2：将非部件词拆分为部件词也比较复杂。在多级加工语料中，非部件词可能带有词性、同形、义项等信息，拆分后如何确定部件词的相应信息，这一步虽有共性规律可循，但很多情况需要个别处理。

常用词知识库的总体设计与工程实践 在主要由部件词构成的常用词表的基础上建设常用词知识库，可以大大提高常用词知识库的有效性和常用词知识库的建设效率。常用词表的构造和常用词知识库的设计与实现可以并行进行，相互促进，因为最常用的一些词（几百个乃至几千个）总会在常用词表中。常用词知识库的框架结构不妨仍继承《现代汉语语法信息词典》（GKB）和现代汉语语义词典（CSD）的数据库文件格式。常用词知识库可划分为词汇知识库、句法知识库、语义知识库、构词规则库、例句库等5部分。常用词知识库的所有数据库文件的第一个字段都是“词语”。

常用词知识库的总体设计与工程实践 词汇知识库相当于GKB的总库，可有选择地继承GKB总库的内容，将各类词库中的“释义”字段移到这里，另增加一些字段，如“异形”、“变体”、“异读”等等。句法知识库大体继承GKB的各类词的数据库，字段也要有所拆分、删节，使其更精炼，同时吸收GKB以外虚词知识库、成语知识库等的部分内容。语义知识库有选择地继承CSD和CLKB中的中文概念词典CCD的内容。构词规则库反向利用部件词拆分规则，构造非部件词的生成规则。例句库汇集每个词的若干典型例句，建立全息语料库（每一个词的各种词法、句法、语义信息都参照其所在的上下文显性地标注出来），为词语属性的计量研究做好准备。

常用词知识库的总体设计与工程实践 常用词知识库是一个浩大的语言工程。不过，基础是坚实的，已有诸多成果可以集成。对于新增的任务，也有了相当多的工程实践经验，如已拆分了数以万计的非部件词，为3万多高频词语的每一个都选取了3-5个例句。也做过全息语料库的小规模试验。

结语与致谢 CLKB是ICL/PKU师生多年努力的成果，也得到中文信息处理学界同仁的扶植，不无侥幸地获得2011年度国家科技进步奖二等奖。衷心期望这项成果能继续发展。常用词语知识库是值得关注的一个发展方向。限于精力和条件，我们已经不可能挑起这副重担。幸运的是，鲁东大学汉语辞书研究中心主任亢世勇教授和邱立坤博士、北京语言大学杨尔弘教授、刘鹏远博士已表示对合作研制常用词知识库有兴趣。衷心期望常用词知识库的研制能成为有相同志趣者共同努力的目标，并为汉语词汇语义学研究、为中文信息处理事业的发展做出贡献。衷心感谢在座同仁耐心听讲。期望得到各位同仁的指教，尽量少走弯路。　欢迎大家访问北京大学计算语言学教育部重点实验室 www.klcl.pku.edu.cn 北京大学计算语言学研究所 www.icl.pku.edu.cn 北京大学软件与微电子学院语言信息工程系 www.ss.pku.edu.cn

第十四届汉语词汇语义学国际研讨会 CLSW2013 词汇计量研究与常用词知识库建设

第十四届汉语词汇语义学国际研讨会 CLSW2013 词汇计量研究与常用词知识库建设

Presentation Transcript

第十四届汉语词汇语义学国际研讨会 CLSW2013 词汇计量研究与常用词知识库建设