440 likes | 583 Views
汉语语义场网络中的无标度分布现象. 杨华 1 姬东鸿* 2 萧国政 1 1 武汉大学文学院 武汉 430070 2 武汉大学计算机学院 武汉 430070 即时通信: QQ 与微信: 905018910 (高品低智). 摘 要. 词语在与其密切相关的其它词语处在一个 系统 中时,能表现出其系统意义与自身的含义( 义位 )。这个系统称为语义场。汉语语义场指的是汉语中的词语意义联系在一起构成的语义系统。一门语言的所有子语义场合在一起,就是这门语言的语义场。
E N D
汉语语义场网络中的无标度分布现象 杨华1 姬东鸿*2 萧国政1 1武汉大学文学院 武汉 430070 2武汉大学计算机学院 武汉 430070 即时通信:QQ与微信:905018910(高品低智)
摘 要 • 词语在与其密切相关的其它词语处在一个系统中时,能表现出其系统意义与自身的含义(义位)。这个系统称为语义场。汉语语义场指的是汉语中的词语意义联系在一起构成的语义系统。一门语言的所有子语义场合在一起,就是这门语言的语义场。 • 本文探索用复杂网络来表示汉语的(子)语义场,根据联想场的概念,提出用复杂网络表示汉语的子语义场,并获得了该网络的一些统计特性。 • 无标度分布在复杂网络研究领域的文献中一般描述的是网络的节点度分布。但我们发现,在带权值的语义场网络中,除了节点的度,节点的权值与边的权值均展现了无标度分布。 • 通过观察网络结点的度、结点的权值、边的权值在一定范围内的内容,可以观察到一些仅在网络的视角才能发掘出的语言现象。我们将较为特别的现象展示给语言学界的专家们,期望引起共鸣,或许从专业的语言学家那里,可以得到对这些现象的解释,从而推进其在自然语言处理任务中的应用。
1引言 • 近年来,复杂网络用来描述现实世界中种种复杂系统。 • 语言是人类进化中长期演化出的高度复杂系统。过去对语言的统计特性研究往往基于一阶统计,比如Zipf定理。 • 近年来,学者们将语言建模为网络进行研究,尝试从网络的角度去探索语言的性质及认知过程、模拟人类语言的产生过程。 • 观察到了大量在一阶统计上难以察觉的语言和认知心理的现象,并用于解释语言的根源、认知过程等等。
1引言 • 汉语是世界最重要的语言之一,其统计规律和性质在语言学上具有重要的参考意义。 • 汉语网络的研究已有一些初步的进展 • 如基本词法网络 • 汉词语同现网络 • 汉词语汇的语法依存句法网络[5]。 • 实验表明这些网络拓扑结构表现出复杂网络的许多普适特性,并且与其它语言网络特性非常相似。这说明尽管各种语言有自己的词法和句法,但是它们后面隐藏着内在的、相对固定的规律。也说明网络是挖掘这些规律的有力工具。
1引言 • 汉语语义场指的是汉语中的词语意义联系在一起构成的语义系统。基于联想语义场的思想,我们构建汉语的(子)语义场网络,观察到该网络中的无标度分布,并观察了网络中结点和边的内容,展现了从网络角度探测到的语言现象。
1引言 • 本文的组织结构如下: • 第2节概览了目前普遍研究的语言复杂网络; • 第3节介绍了联想语义场的概念,并基于该概念介绍了语义场网络的构建方法; • 第4节描述了在语义场网络中所调查的特性 • 第5节给出了实验结果,即网络中普遍出现的无标度分布现象,其中对于节点权值、边权值的分布的研究是尤其独特的,并观测了某些特定范围的词语特征。 • 第6节指出了未来的工作。
2语言复杂网络一览 • 很多文献中将语言的复杂网络称为语义网络(Semantic Network),这个概念不等同于“语义网(Semantic Web)”。
2语言复杂网络一览 • 单词同现(相邻)网和单词搭配网 • 依存语法网: • 词典网络――专家知识网: • 词汇联想网络: • 中文语言网络的相关工作: • 共性:小世界效应和无标度特性,并在层次性、居间中心性和混合模式 ,具有普适特性
3语义场网络 • 很多研究对以什么单位为网络结点,如何定义结点之间的关系,研究的兴趣何在都未充分回答。 • 然而,尽管各种已研究网络从构建上有区别,但都有一个共同点:结点之间的关系都试图表达词语之间的语义关联。然而,什么样的两个词语算是“具有语义上的关联”呢?
3.1联想场的概念 • 索绪尔曾说过:“任何一个词在人们的记忆力都可以唤起一切可能跟它有这种或那种联系的词。”联想场的概念是有索绪尔的弟子Bally提出的,Bally正式提出了联想场理论认为:包围在已给词周围的能够更细地规定这个词的价值的体系。 • Ullmann把联想场规定为围绕一个词的联想网络,一切都是被联想的网所包围,依此和其他词产生联系,这种联想是有意义关系的,有纯粹根据形态的,也有和形态,意义双方都相关的[26][27]。这正是本文的灵感来源。
3.2 如何表达联想 • 为什么给定激发词“奥运会”,大多数人会联想到“金牌”,“世界冠军”等等呢? • 笔者认为,这种心理过程构建于人共有的背景知识,因而间接地构建于广泛使用的媒体,包括报纸,电视,网络等。更具体来说,是因为这些词语高概率地在同一窗口中同现。词语的同现是重要信息[28],这一观点获得了广泛的应用。 • 注意到常常同现的词语放在一起时能表现它们自己的含义,比如“刘翔”、“跑步”、“冠军”三个词语放在一起的时候,尽管没有句法信息,我们仍能判断这里“刘翔”是著名运动员而非一般人,“跑步”是一种高水平的比赛,而不是普通的“奔跑”。这些词放在一起的时候,即使没有精确的人工义素分析,我们也能比较准确地了解这些词语的指称意义。
3.3 汉语语义场网络的构建方法与特征 • 语义场被定义为义位形成的系统[31],但,如何来表示这个系统? • 基于上述广义语义场的概念,我们尝试用三种网络来表示汉语的子场,根据语言复杂网络研究领域中的分类,可称为关键词同现网络(Key Term Concurrence Network,KTCN)。 • 这里仅描述在文献[32]中用于信息检索任务中的查询扩展技术时中表现最好的网络, • 记为KTCN-R,其生成过程如下:以大型语料中所有文档的所有关键词为结点(采用文献[33]中的关键词抽取算法),如果两个关键词同时出现在至少一篇文档的同一段落中,则认为它们可能属于同一语义场,则在这对关键词之间加边。网络中的边上的权值表达的是相应的关键词在语料库中所有文档的所有段落中共同出现的次数。
4无标度分布及相关概念 • 通过三元组(N,E,W)来描述KTCN-R的规模 • 结点的度 • 大部分结点的度数很低,而少数结点的度数很高,则称这种分布为无标度分布。“无标度”的本质含义是“无明显特征”,而正态分布则具有绝大部分样本分布在期望附近的明显特征。 • 网络的结点平均权值定义为所有结点的权值的平均值。 • 结点平均权值分布的概念则类似于网络的顶点度分布。 • 边权值分布
5.1结点度分布 • 图 1KTCN-R中1到200度的结点数分布
5.1结点度分布 图2 KTCN-R中201到500度的结点数分布
5.1结点度分布 图 3 KTCN-R中500到1118度的结点数分布
5.1结点度分布 • 第四段,也就是度数大于等于1118的结点数均小于10。 • 综合以上四段数据,KTCN的度分布是无标度分布。 • 查看数据(附录1-4)
5.2结点权值分布 图 4 KTCN-R中权值在[1,315]的结点数分布
5.2结点权值分布 图 5 KTCN-R中权值在[315,804]的结点数分布
5.2结点权值分布 图 6 KTCN-R中权值在[805,1957]的结点分布
5.2结点权值分布 • 剩余的数据点共5305个,权值均小于10,平均值为1.41263,标准差为0.84573,中数为1,为1的数据共3940个。 • 综上,KTCN-R的结点权服从无标度分布。
下面观察结点权值在一定范围内的词语特征: • 1) 文献[32]中附录4列出了KTCN-R中权值最低的200个结点的词语,它们的权值均为1,由于权值为1的结点度数必然为1(反之未必成立),而权值为1的结点和度数为1的结点都非常多(无标度分布),因此两种情况应该相似。 • 造成附录1和附录4的差别的原因是实验过程中使用了二叉排序树,两种情况结点被插入二叉树的先后顺序不同。 • 所以它们然表现出和度数最低的200词相同的特征:很少见的词、不准确的抽词、和少量意义完整的词语组合。
下面观察结点权值在一定范围内的词语特征: • 2) 文献[32]中附录5列出了KTCN-R中结点权值大于1且最小的200个词语(结点权值均为2)。显然,它们与度或权为1的结点具有相同的特征。 • 3) 文献[32]中附录6列出了KTCN-R中结点权值最高的200个结点的内容及它们的权值。 • 我们考察了度数最高的200个结点(附录2)和权值最高的200个结点之间的重复重复率为100%,即这两组数据仅排序不同,因此它们的特征也相同。 • 但我们计算了KTCN-R中结点度与权的皮尔逊相关系数仅为0.565346,可见两者正相关程度并不是很高。
下面观察结点权值在一定范围内的词语特征: • 3)文献[32]中附录7列出了结点权值在所有权值的中数左右的200个词语,它们的权值均为22,这些词语虽然不像词,但是意思却相当完整。
下面观察结点权值在一定范围内的词语特征: • 4) 此外,最高权值的一半左右的200个词语基本就是权值最大的那些词语。因为KTCN-R中最大权值为858411,其一半是429205.5,权值大于的429205.5词只有5个(权值均为1)。 • 查看数据:附录5-7
5.3边权值分布 • 边权为1,2,3,4,5的边数分别是8275598,5106606,2454626,914240,500610。
5.3边权值分布 图 7 边权值在[6,29]的边数分布
5.3边权值分布 图 8KTCN-R中边权值在[30,246]的边数分布
5.3边权值分布 图 9KTCN-R中边权值在[247,573]的边数分布
5.3边权值分布 图 10KTCN-R中边权值在[574,820]的边数分布
5.3边权值分布 • 下面考察一些权值在具体范围的边的内容特征: • 1)文献[32]中附录8列出了200条权值最小的边的内容,它们的权值均为1。特点是:结点的基本都是意义很完整的词及组合,而不是那些很少见的词语或者错误抽词(这是度和权最小的200个结点的特征)。然而,从常识来看这些边的结点语义关系非常弱,属于同一义场的概率很小。
5.3边权值分布 • 2)文献[32]中附录9列出了KTCN-R中权值最大的200条边的内容。它们的特点是,结点与附录8中列出的低权值边的结点相似,抽词很准确且很常见。但边的特性却与附录8相反:语义关系非常明显,即属于同一义场的概率很大。
5.3边权值分布 • 3)文献[32]中附录10列出了KTCN-R中边权值在所有边权值的中位数左右200条边的内容,它们的权值都是2,说明中数是2,接近众数1。因此附录10的与附录8的特征接近。
5.3边权值分布 • 4)我们还考察了权值在10(边数20312)、50(边数3149)、100(边数729),200(边数205)、500(边数43)的边的内容,对边数少于200的权值,列出全部边的内容,对边数超过200的权值,只列出200个。相应实验结果见[32]中附录11到附录15,其中删除了一些言论敏感的结果。从这些数据可以观察出以下结论:随着权值的增加,边上的两个结点之间的语义相关程度越来越高。并且,在权值为10的情况,这种倾向就已经非常明显了。
5.3边权值分布 • 此外,权值越高,边上的两个结点越显得紧密,但意思也比较宽泛,比如“企业-500-美国”,但是在比较有意义的范围,形成对比的是:权值为10的一组,就显得更加领域化,比如“外商投资企业批准证书-10-申请”,而且相应的结点字符串也比较长。但,无论边权值为10还是500的边的两个结点的语义关系都比较明确。
6未来的工作 • 1) 更精确地构建网络,如改进关键词的提取算法,使得文章的关键词更加准确,使得节点更加准确,尽可能少地出现不符合人类直觉的“词语”。以互信息为边权值等,增加边及权值的准确性。对这一工作的检验方法是;利用该网络作为基础之一实现某些NLP任务,考查性能的提升。比如:可用查询扩展任务的性能提升程度检验互信息和频率哪一个更能表达词语的亲密程度。
6未来的工作 • 2) 用于语料建设。跨文本的结构特性可以提供关于“无人工干涉的语料”的知识。 • Zipf第一定理证明了词汇数量随着使用频率的增加而迅速斜线下降,那么过度偏离Zipf分布的文本可能由不同的文本混杂而成,或者是人工干预的产物[35]。 • 类似地,如果语料的网络结构远远偏离了文本网络的原则,则可能有人工干扰。从语料语言学的角度,对语料的网络分析可以研究语料特性,量化对语料的合理性限制,比如语料应具备自然性限制(naturalness constraints,即无刻意的人工干预), • 文献[9]及相关研究指出了从复杂网络的角度对语料进行分析的重要性,比如,在语料作为认知学上词汇记忆模型的数据时,小世界特性至少可以作为判断语料需要满足可靠性的必要条件。由于基于网络的语料语言学研究刚刚起步,目前最主要的任务是探索大型文本网络的结构,寻找出相关的规律,找出合适的结构参数指标,评价语料的质量,有益于对语料建设和处理[9]。
6未来的工作 • 3) 类同文献[4]的工作,寻找中文的核心词汇;可以KTCN-R为基础,帮助中文词汇表(比如汉语主题词表)的建设与更新,在构建词表时,越常用的汉语词汇,越早受到语言学家的审验。
6未来的工作 • 5) 寻找语言的特征。 • 6) 语义场网络的权值表达了词语之间容易联想到的强度,因而可用于认知及联想研究,而不必像文献[21]那样寻找人力来参与网络的构建。 • 7) 用于自然语言处理的任务,通过各种方法修订该网络,并找到应用。 • 如文献[32]中对KTCN-R的权值进行反转,用最短路径表达词语的语义亲密程度,并用于信息检索任务; • 又如,基于KTCN构建词汇链,可能改善基于词汇链技术的任务的性能。
结束 • 谢谢各位,恳请指正。