280 likes | 329 Views
基于广义特征序列的 语义分类体系的自动构建. 陈刚 刘扬 北京大学计算语言学研究所 北京大学计算语言学教育部重点实验室 E-mail: gangchen@pku.edu.cn liuyang@pku.edu.cn 2013-05. 提纲. 1 词义的知识表示方式 2 广义特征、序关系、广义特征序列 3 基于广义特征序列, 自动构建语义分类体系 4 实验与数据分析 5 结语. 提纲. 1 词义的知识表示方式 2 广义特征、序关系、广义特征序列 3 基于广义特征序列, 自动构建语义分类体系 4 实验与数据分析 5 结语.
E N D
基于广义特征序列的语义分类体系的自动构建 基于广义特征序列的语义分类体系的自动构建 陈刚 刘扬 北京大学计算语言学研究所 北京大学计算语言学教育部重点实验室 E-mail: gangchen@pku.edu.cnliuyang@pku.edu.cn 2013-05
提纲 • 1 词义的知识表示方式 • 2 广义特征、序关系、广义特征序列 • 3 基于广义特征序列,自动构建语义分类体系 • 4 实验与数据分析 • 5 结语
提纲 • 1 词义的知识表示方式 • 2 广义特征、序关系、广义特征序列 • 3 基于广义特征序列,自动构建语义分类体系 • 4 实验与数据分析 • 5 结语
词义的两种知识表示方式 • 属性描述: • 词义知识的属性描述一般采取构造方式,借助义素分析等方法预先定义出一组基本语义单位,然后组合这些单位形成概念描写。 • 典型呈现方式:属性枚举、二维表 • 典型系统:HowNet-2000 、现代汉语语义词典 • 分类描述: • 注重对全体概念进行系统性的区分,以上下位关系为主干结构将概念组织成一个语义分类体系,在此基础上再添加其它类型的语义关系,进一步构成一个复杂的语义网络。 • 典型呈现方式:树结构 • 典型系统: WordNet
词义的两种知识表示方式 • 相互转换: • 属性描述:强于对概念自身的精细描写、在词义计算中便于实现多样的特征选取; • 分类描述:强于对系统结构的整体把握、在词义计算中便于在不同粒度上的意义归约。 • 相互转换的可行性与现实状况还未被关注。 • 本文的主要工作: • 在属性描述的基础上,引入广义特征和序关系的概念,自动构建出一个语义分类体系。完成了从属性描述到分类描述的等价转化。 • 基于这种转化所得到的语义分类体系,进行数据分析和实验验证,帮助语言知识工程进行迭代性的评估与构建。
提纲 • 1 词义的知识表示方式 • 2 广义特征、序关系、广义特征序列 • 3 基于广义特征序列,自动构建语义分类体系 • 4 实验与数据分析 • 5 结语
广义特征的背景 • 一般而言,属性描述的方式不仅涉及当前概念的多种属性,也描述它与其它概念之间的多种语义关系。 • HowNet-2000中的概念描述: • 医生 = human|人 , # occupation|职位 , * cure|医治 ,medical|医 • 医院 = InstitutePlace|场所, @cure|医治, #disease|疾病, medical|医 • 患者 = human|人, *SufferFrom|罹患, $cure|医治, #medical|医 场所 医治 @ $ ∅ * ∅ ∅ # 人 职位 医生 患者 医院 * # # ∅ 罹患 医 疾病
广义特征 • 定义 • 把“属性-属性值”、“关系-目标概念”封装起来,形成简洁统一的广义特征。 • 对于上面的例子,它的所有特征仅仅是多个经过封装的字符串: • 医生 = human|人 , #occupation|职位 , *cure|医治 , medical|医 • 医院 = InstitutePlace|场所 , @cure|医治 , #disease|疾病 , medical|医 • 患者 = human|人 , *SufferFrom|罹患 , $cure|医治 , #medical|医
序关系 • 问题:词语往往有多个方面的意义,如何兼顾? • 例如:W =“中南海” • 可以表示:地点,机构,人群:(CCL语料库的例句) • 地点:“…走进了神圣而又神秘的中南海…” • 机构:“…中南海发出的那份红头文件…” • 人群:“…引起中南海的意见分歧…” • 引入序关系 • 根据应用需求,对多个意义方面进行重要性的排序。 • 避免在它们之间做出非此即彼的硬性选择。 • 可能的特征序列有 3! = 6 种: • <地点,机构,人群>, <地点,人群,机构>, <机构,地点,人群>, <机构,人群,地点>, <人群,地点,机构>, <人群,机构,地点>。
广义特征序列 • 广义特征集合: • 集合,无序性,W= { F1, F2, … , Fn } • 广义特征序列: • 在词语W的广义特征集合上施加关于多项特征之间的序关系的认定,则在给定序关系下的排列 W′= < Fs1, Fs2, … , Fsn > 称为广义特征序列。 • 广义特征集合 + 序关系 = 广义特征序列 • 根据不同的应用需求,实现序关系的“定制”: • 一般领域: • 医生 = human|人 ,#occupation|职位 , *cure|医治 , medical|医 • 术语研究: • 医生 = medical|医 ,#occupation|职位 , *cure|医治 , human|人
提纲 • 1 词义的知识表示方式 • 2 广义特征、序关系、广义特征序列 • 3 基于广义特征序列,自动构建语义分类体系 • 4 实验与数据分析 • 5 结语
广义特征序列前缀 • 广义特征序列的意义随着新的广义特征的逐步施加变得细化而确定。因此,在序列产生的过程中,它的不同长度的前缀,也负载了特殊的意义。 • 例如: • ? = human|人 • ? = human|人 , #occupation|职位 • ? = human|人 , #occupation|职位 , *cure|医治 • 医生 = human|人 , #occupation|职位 , *cure|医治 , medical|医 • 随着序列前缀的逐步展开,形成了不同的分类层次、构成不同的中间概念,同时自然地模拟了概念涵义从一般到特殊的渐次生成过程。
语义分类体系的自动构建 • 把广义特征序列的生长过程看做树结构的生长过程。 • 每一项新特征的施加,概念就被约束到一个更小的内涵上去。这个过程模拟、重现了现实分类中的父类、子类关系。 • 这种约束不限于狭义的kind-of或is-a关系,是一种更为“广义”的上下位关系,也为一般的语义分类实践提供了新的契机。
过程演示(1/3) • 第一步:形成特征序列 W(1) =<F1, F2, F3> W(2) =<F1, F2, F4> W(3) =<F1, F5, F6> W(4) =<F1, F5> W(5) =<F1, F2, F4>
过程演示(2/3) • 第二步:合并同义词,提取特征前缀 • { } = <F1> • { } = <F1, F2> • {W (1)} = <F1, F2, F3> • {W (2),W(5) } = <F1, F2, F4> • {W (4)} = <F1, F5> • {W (3)} = <F1, F5, F6> 中间概念 W(1) =<F1, F2, F3> W(2) =<F1, F2, F4> W(3) =<F1, F5, F6> W(4) =<F1, F5> W(5) =<F1, F2, F4> 中间概念
过程演示(3/3) F1 { } F5 F2 • 第三步:纵向收集,形成树结构 { } {W (4)} • { } = <F1> • { } = <F1, F2> • {W (1)} = <F1, F2, F3> • {W (2),W(5) } = <F1, F2, F4> • {W (4)} = <F1, F5> • {W (3)} = <F1, F5, F6> F4 F6 F3 {W (1)} {W (2), W(5) } {W (3)}
实际数据的例子 human|人 {人,人物 …} #country|国家 #knowledge|知识 human|人, #country|国家 {公民,国人…} human|人,#knowledge|知识 {知识分子…} (China|中国) #language|语言 human|人, #country|国家, (China|中国) {华侨…} human|人,#knowledge|知识, #language|语言 {语言学家…}
优化方案 • HowNet-2000中的义原已经组织成树结构,且同样可转写为广义特征序列。 • 这启发我们在自动扩展的基础上,依据DEF项对应的主要特征的取值,可将此前生成的语义分类直接“拼接”在义原树上,形成层次更深的树。 • HowNet-2000的义原结构: entity|实体 thing|万物 … … physical|物质 mental|精神 … … animate|生物 inanimate|无生物 … …
优化方案 实体 万物 … human|人 {人,人物 …} 物质 精神 … #country|国家 #knowledge|知识 生物 无生物 … human|人, #country|国家 {公民,国人…} human|人,#knowledge|知识 {知识分子…} 动物 植物 微生物 … #language|语言 (China|中国) … 兽 人 human|人, #country|国家, (China|中国) {华侨…} human|人,#knowledge|知识, #language|语言 {语言学家…}
提纲 • 1 词义的知识表示方式 • 2 广义特征、序关系、广义特征序列 • 3 基于广义特征序列,自动构建语义分类体系 • 4 实验与数据分析 • 5 结语
概念涵义的扩展与中间概念的生成 • HowNet-2000原始文件中不重复的DEF项(即概念定义)的总次数为17216,DEF项的平均长度为3.86。 • 优化方案除覆盖了原始的概念外,同时新生成了6384个此前未加定义的中间概念,它们暂时还没有词的实例来承载。这些尚未显性化的中间概念的数量占原有概念数量的37.08%,而全体概念数量增长到23600个,DEF项的平均长度被扩展到约7.74。 • 从概念涵义的有意义扩展以及新的中间概念自动生成的角度看,这对语言知识库建设是一个积极的现象。 • 概念描述平均长度的增加,为词义计算供了更多的信息。
广义特征序列的长度分布 • 将概念的特征序列直接追加到义原分类树上,增加了特征序列的长度,也增强了概念之间的区分性。 • 概念的特征序列长度的分布更均匀,这也有助于确保词义计算的质量。 • 在HowNet-2000的全集规模(覆盖全部原始概念,分类节点数在2万以上)上首次给出了一个分布均衡的语义分类体系。
揭示属性描述方式下不易察觉的问题 • 核查同一概念节点内不同词的同义性状况: • 亭子|碑亭|垛|构筑物|明沟|窨井 • 概念涵义继承链条的潜在缺失: • DEF=facilities|设施,@exercise|锻练 => “训练场”、“健身中心”… • 有助于发掘概念涵义继承链条的潜在错误: • HowNet-2000原始数据中, “冰场”作为“亭子|碑亭|垛|构筑物|明沟|窨井”的子孙概念,这是不合理的。 • 通过向语义分类体系的转化,问题得以揭示。
属性描述与分类描述结合的优势 • 在属性描述下,针对单个词的属性描述难以对不同的词进行系统化的横向、纵向比较,在语义分类体系下则可把相关问题清晰呈现出来。 • 反过来,单纯的分类描述缺乏对多种特征的有效认识和把握,在工程实践中也会衍生出许多问题。 • 两种方式的结合有助于发挥综合优势,在语言知识工程上做迭代,以生成高质量的、实用化的词义知识库。
提纲 • 1 词义的知识表示方式 • 2 广义特征、序关系、广义特征序列 • 3 基于广义特征序列,自动构建语义分类体系 • 4 实验与数据分析 • 5 结语
工作小结 • 在知识库的构建中,词义知识表示主要依赖属性描述和分类描述,这两种方式各有所长,但不同表示之间相互转换的可行性与现实状况还未被关注。 • 在属性描述的基础上,本文引入了广义特征、序关系和广义特征序列的概念,以及基于该概念的分类层次展开方法。 • 该方法能够模拟、分析概念涵义从一般到特殊的渐次生成过程,并发掘、记录那些尚未显性化的中间概念,自动构建出一个语义分类体系,实现从属性描述到分类描述的计算性转换。 • 以HowNet数据为例,实验表明本方法可以生成一个性质优良、覆盖完全的新的语义分类体系,并反映此前的属性描述在语言知识工程实践中一些不易察觉的问题。
应用与展望 • 应用:北大“中文概念词典” • 目前,我们正将基于广义特征序列的概念、方法应用于北大“中文概念词典”的迭代评价和结构重构等方面,希望在语言知识工程上不断演化,生成出高质量的、实用化的词义知识库。 • 反向转化:从分类描述向属性描述的转换 • 从理论和实践上看,广义特征序列的概念、方法具有通用性,在从分类描述向属性描述的转换中同样适用。 • 核心思想:对于语义分类体系中的每个概念节点,持续界定、收集从根节点到该概念节点的路径上的每一处分类的区分性凭证(即区分特征)。若知识库中存在多继承现象和多种其它关系,则需要在序关系上做一些特殊的认定和处理。
提纲 • 1 词义的知识表示方式 • 2 广义特征、序关系、广义特征序列 • 3 基于广义特征序列,自动构建语义分类体系 • 4 实验与数据分析 • 5 结语 谢谢!