基于广义特征序列的语义分类体系的自动构建

基于广义特征序列的语义分类体系的自动构建 基于广义特征序列的语义分类体系的自动构建陈刚刘扬北京大学计算语言学研究所北京大学计算语言学教育部重点实验室 E-mail: gangchen@pku.edu.cnliuyang@pku.edu.cn 2013-05

提纲 • 1 词义的知识表示方式 • 2 广义特征、序关系、广义特征序列 • 3 基于广义特征序列，自动构建语义分类体系 • 4 实验与数据分析 • 5 结语

词义的两种知识表示方式 • 属性描述： • 词义知识的属性描述一般采取构造方式，借助义素分析等方法预先定义出一组基本语义单位，然后组合这些单位形成概念描写。 • 典型呈现方式：属性枚举、二维表 • 典型系统：HowNet-2000 、现代汉语语义词典 • 分类描述： • 注重对全体概念进行系统性的区分，以上下位关系为主干结构将概念组织成一个语义分类体系，在此基础上再添加其它类型的语义关系，进一步构成一个复杂的语义网络。 • 典型呈现方式：树结构 • 典型系统： WordNet

词义的两种知识表示方式 • 相互转换： • 属性描述：强于对概念自身的精细描写、在词义计算中便于实现多样的特征选取； • 分类描述：强于对系统结构的整体把握、在词义计算中便于在不同粒度上的意义归约。 • 相互转换的可行性与现实状况还未被关注。 • 本文的主要工作： • 在属性描述的基础上，引入广义特征和序关系的概念，自动构建出一个语义分类体系。完成了从属性描述到分类描述的等价转化。 • 基于这种转化所得到的语义分类体系，进行数据分析和实验验证，帮助语言知识工程进行迭代性的评估与构建。

序关系 • 问题：词语往往有多个方面的意义，如何兼顾？ • 例如：W =“中南海” • 可以表示：地点，机构，人群：（CCL语料库的例句） • 地点：“…走进了神圣而又神秘的中南海…” • 机构：“…中南海发出的那份红头文件…” • 人群：“…引起中南海的意见分歧…” • 引入序关系 • 根据应用需求，对多个意义方面进行重要性的排序。 • 避免在它们之间做出非此即彼的硬性选择。 • 可能的特征序列有 3! = 6 种： • <地点，机构，人群>， <地点，人群，机构>， <机构，地点，人群>， <机构，人群，地点>， <人群，地点，机构>， <人群，机构，地点>。

广义特征序列 • 广义特征集合： • 集合，无序性，W= { F1, F2, … , Fn } • 广义特征序列： • 在词语W的广义特征集合上施加关于多项特征之间的序关系的认定，则在给定序关系下的排列 W′= < Fs1, Fs2, … , Fsn > 称为广义特征序列。 • 广义特征集合 + 序关系 = 广义特征序列 • 根据不同的应用需求，实现序关系的“定制”： • 一般领域： • 医生 = human|人 ,#occupation|职位 , *cure|医治 , medical|医 • 术语研究： • 医生 = medical|医 ,#occupation|职位 , *cure|医治 , human|人

语义分类体系的自动构建 • 把广义特征序列的生长过程看做树结构的生长过程。 • 每一项新特征的施加，概念就被约束到一个更小的内涵上去。这个过程模拟、重现了现实分类中的父类、子类关系。 • 这种约束不限于狭义的kind-of或is-a关系，是一种更为“广义”的上下位关系，也为一般的语义分类实践提供了新的契机。

过程演示（1/3） • 第一步：形成特征序列 W(1) =<F1, F2, F3> W(2) =<F1, F2, F4> W(3) =<F1, F5, F6> W(4) =<F1, F5> W(5) =<F1, F2, F4>

过程演示（2/3） • 第二步：合并同义词，提取特征前缀 • { } = <F1> • { } = <F1, F2> • {W (1)} = <F1, F2, F3> • {W (2),W(5) } = <F1, F2, F4> • {W (4)} = <F1, F5> • {W (3)} = <F1, F5, F6> 中间概念 W(1) =<F1, F2, F3> W(2) =<F1, F2, F4> W(3) =<F1, F5, F6> W(4) =<F1, F5> W(5) =<F1, F2, F4> 中间概念

过程演示（3/3） F1 { } F5 F2 • 第三步：纵向收集，形成树结构 { } {W (4)} • { } = <F1> • { } = <F1, F2> • {W (1)} = <F1, F2, F3> • {W (2),W(5) } = <F1, F2, F4> • {W (4)} = <F1, F5> • {W (3)} = <F1, F5, F6> F4 F6 F3 {W (1)} {W (2), W(5) } {W (3)}

实际数据的例子 human|人 {人，人物 …} #country|国家 #knowledge|知识 human|人, #country|国家 {公民，国人…} human|人，#knowledge|知识 {知识分子…} (China|中国) #language|语言 human|人， #country|国家， (China|中国) {华侨…} human|人，#knowledge|知识， #language|语言 {语言学家…}

优化方案 实体万物 … human|人 {人，人物 …} 物质精神 … #country|国家 #knowledge|知识生物无生物 … human|人, #country|国家 {公民，国人…} human|人，#knowledge|知识 {知识分子…} 动物植物微生物 … #language|语言 (China|中国) … 兽人 human|人， #country|国家， (China|中国) {华侨…} human|人，#knowledge|知识， #language|语言 {语言学家…}

概念涵义的扩展与中间概念的生成 • HowNet-2000原始文件中不重复的DEF项（即概念定义）的总次数为17216，DEF项的平均长度为3.86。 • 优化方案除覆盖了原始的概念外，同时新生成了6384个此前未加定义的中间概念，它们暂时还没有词的实例来承载。这些尚未显性化的中间概念的数量占原有概念数量的37.08%，而全体概念数量增长到23600个，DEF项的平均长度被扩展到约7.74。 • 从概念涵义的有意义扩展以及新的中间概念自动生成的角度看，这对语言知识库建设是一个积极的现象。 • 概念描述平均长度的增加，为词义计算供了更多的信息。

广义特征序列的长度分布 • 将概念的特征序列直接追加到义原分类树上，增加了特征序列的长度，也增强了概念之间的区分性。 • 概念的特征序列长度的分布更均匀，这也有助于确保词义计算的质量。 • 在HowNet-2000的全集规模（覆盖全部原始概念，分类节点数在2万以上）上首次给出了一个分布均衡的语义分类体系。

揭示属性描述方式下不易察觉的问题 • 核查同一概念节点内不同词的同义性状况： • 亭子|碑亭|垛|构筑物|明沟|窨井 • 概念涵义继承链条的潜在缺失： • DEF=facilities|设施,@exercise|锻练 => “训练场”、“健身中心”… • 有助于发掘概念涵义继承链条的潜在错误: • HowNet-2000原始数据中， “冰场”作为“亭子|碑亭|垛|构筑物|明沟|窨井”的子孙概念，这是不合理的。 • 通过向语义分类体系的转化，问题得以揭示。

属性描述与分类描述结合的优势 • 在属性描述下，针对单个词的属性描述难以对不同的词进行系统化的横向、纵向比较，在语义分类体系下则可把相关问题清晰呈现出来。 • 反过来，单纯的分类描述缺乏对多种特征的有效认识和把握，在工程实践中也会衍生出许多问题。 • 两种方式的结合有助于发挥综合优势，在语言知识工程上做迭代，以生成高质量的、实用化的词义知识库。

工作小结 • 在知识库的构建中，词义知识表示主要依赖属性描述和分类描述，这两种方式各有所长，但不同表示之间相互转换的可行性与现实状况还未被关注。 • 在属性描述的基础上，本文引入了广义特征、序关系和广义特征序列的概念，以及基于该概念的分类层次展开方法。 • 该方法能够模拟、分析概念涵义从一般到特殊的渐次生成过程，并发掘、记录那些尚未显性化的中间概念，自动构建出一个语义分类体系，实现从属性描述到分类描述的计算性转换。 • 以HowNet数据为例，实验表明本方法可以生成一个性质优良、覆盖完全的新的语义分类体系，并反映此前的属性描述在语言知识工程实践中一些不易察觉的问题。

应用与展望 • 应用：北大“中文概念词典” • 目前，我们正将基于广义特征序列的概念、方法应用于北大“中文概念词典”的迭代评价和结构重构等方面，希望在语言知识工程上不断演化，生成出高质量的、实用化的词义知识库。 • 反向转化：从分类描述向属性描述的转换 • 从理论和实践上看，广义特征序列的概念、方法具有通用性，在从分类描述向属性描述的转换中同样适用。 • 核心思想：对于语义分类体系中的每个概念节点，持续界定、收集从根节点到该概念节点的路径上的每一处分类的区分性凭证（即区分特征）。若知识库中存在多继承现象和多种其它关系，则需要在序关系上做一些特殊的认定和处理。

提纲 • 1 词义的知识表示方式 • 2 广义特征、序关系、广义特征序列 • 3 基于广义特征序列，自动构建语义分类体系 • 4 实验与数据分析 • 5 结语谢谢！

基于广义特征序列的 语义分类体系的自动构建