240 likes | 383 Views
基于自举学习与指代消解的人物家庭网络构建研究. 作者:顾静航、胡亚楠、钱龙华、朱巧明 报告人:胡亚楠 苏州大学自然语言处理实验室. 主要内容. 研究动机 相关工作 研究方法 评价方法 实验结果 展望. 研究动机.
E N D
基于自举学习与指代消解的人物家庭网络构建研究基于自举学习与指代消解的人物家庭网络构建研究 作者:顾静航、胡亚楠、钱龙华、朱巧明 报告人:胡亚楠 苏州大学自然语言处理实验室
主要内容 • 研究动机 • 相关工作 • 研究方法 • 评价方法 • 实验结果 • 展望
研究动机 • 社会关系网络在当今信息化社会中具有重要的作用,社会关系网络的分析和应用可以提高人们的生活质量和生活效率。家庭是人类社会最基本的组成单位,因而家庭网络是社会网络中的核心部分。传统的社会关系网络分析(Social Network Analysis, SNA)着眼于以人为个体,考察个体在网络中的作用,忽略了家庭作为一个整体对社会网络的影响。本文从构建家庭网络入手,挖掘丰富的人物家庭关系,为构造大规模的社会关系网络打下基础。
相关工作 • 自举学习 • Hearst(1992):基于模式匹配来抽取“is-a”关系 • Pantel等(2006):Espresso,解决模式和实例的可信度问题 • 姚从磊等(2007):采用模拟退火算法发现网页中蕴涵的人物社会关系 • 社会关系网络 • Kautz等(1997):Referral Web,利用人名共现实现社会网络挖掘 • Mika等(2005):同Referral Web,包括Web网页和用户电子邮件
相关工作(续) • 社会关系网络(续) • 唐杰等(2008):ArnetMiner,建立学术人物之间的社会关系网络 • Elson等(2010)、Agarwal等(2012):对小说中人物的社会关系网络进行了研究,提出了隐式社会关系的概念 • Camp和Bosch等(2011):从人物自传中提取带有情感极性的人物社会关系 • Zhu等(2009):StatSnowball,采用自举方法进行人物社会关系的抽取,融合概率模型和马尔科夫逻辑网络等方法,实现“微软人立方”
研究方法 • 基于自举学习的人物家庭关系抽取: • 家庭关系定义: • “Parent-Child”和“Husband-Wife”。 • 为了便于自举过程的进行,“Parent-Child”关系类型又被细分为“Father-Son”、“Father-Daughter”、“Mother-Son”和“Mother-Daughter” • 自举学习过程: • 模式发现 • 模式评估 • 实例发现 • 实例评估
研究方法(续) • 模式发现: • 给定种子“江泽民, 王冶坪” • 抽取出文本“……中国国家主席江泽民的夫人王冶坪今天下午……” • 抽取模式,得“<Husband>的夫人<Wife>”
研究方法 (续) • 模式评估: • 采用PMI衡量模式p与人物对{x, y}之间的关联强度 • 定义模式p的可信度为rπ(p),它与每个实例i的平均关联程度有关
研究方法 (续) • 实例发现: • 利用已有模式发现实例 • 如模式“<Husband>的夫人<Wife>” • 可以得到句子“……中国国务院总理李鹏的夫人朱琳8日上午来到……” • 进行分词、人名识别,可以发现新的夫妻关系实例“李鹏, 朱琳”。
研究方法 (续) • 实例评估: • 定义实例i的可信度为rl(i),它与每个模式p的平均关联程度有关 • PMI方法对于低频事件有偏向性,所以引入打折因子
研究方法(续) • 基于指代消解的人物家庭网络融合: • 人名精确匹配: • 在不同的人物对中按照人名进行字符串精确匹配,将具有相同名称的人名作为连接点,通过连接点将不同的人物对联系起来,形成初始家庭。 • 重名消岐: • 在人名精确匹配的基础上,以文档的全局实体特征作为人名特征,计算同名人物之间的余弦相似度,将相似度低于某一阀值的同名人物从初始家庭中分离出去。 • 多名聚合: • 在家庭内部采用最小编辑距离的方法进行人物的多名聚合,当人名之间的相似度大于某一阀值时,将它们归入同一指代链,并形成最终家庭。
研究方法(续) • 在进行人物家庭网络构建时,即需要将拥有相同名称的不同人物归入各自的指代链,又需要将指向同一人物的多个名称归入同一条指代链
研究方法(续) • 例子: • (a)“……,卡恩的妻子西蒙娜却站出来维护自己的丈夫,说……” • (b)“……,巴博的妻子西蒙娜当日早些时候在执政党明确表示,法国并没有在……” • (c)“尼日利亚国家元首阿巴查的夫人玛丽亚姆・阿巴查26日在接受本社记者采访……” • (d)“尼日利亚国家元首阿巴查和夫人玛利亚姆・阿巴查、外交部长……” • (e)“这些人员中主要包括阿巴查的儿子穆罕默德・阿巴查和商人……”
研究方法(续) • 以上5个例句分别来源于5篇不同的文档 • 其中(a)与(b)中的“西蒙娜”为不同的人物,因而(a)与(b)中的夫妻关系不同 • (c)中的“玛丽亚姆・阿巴查”与(d)中的“玛利亚姆・阿巴查”则是指同一个人,(c)与(d)中的夫妻关系相同 • (a)、(b)中的人物不能构建成一个家庭 • (c)、(d)中的夫妻以及(e)中的父子可以构建成一个家庭。
评价方法 • 关系抽取性能评价 其中,C为抽取结果中正确的实例数目,T为系统抽取出的实例总数。 • 指代消解评价方法(B-CUBE)
评价方法(续) • 其中,Response(Ei)指包含名称i的输出链的中全部的元素个数,Right(Response(Ei))指包含名称i的输出链中正确的元素个数, Key(Ei)指包含名称i的参照输出链中的全部元素个数。跨文本指代消解整体性能的计算公式为: • 其中,wi采用等分权值1/N。
评价方法(续) • 家庭网络评价方法 • 其中,Positive为系统构建的正确的家庭数目,Retained为系统构建的家庭总数,Standard为标准集中的家庭数目。
实验结果 • 实验语料及预处理 • 采用Gigaword中文语料库作为家庭网络构建的实验数据,共有1,033,679篇新闻报道,将其导入Solr,以Web方式进行检索。 • 在进行人物家庭网络构建时,在人物关系抽取的基础上选取人名精确匹配的结果作为基准系统。 • 然后在基准系统的基础上进行人工标注,将存在错误的指代链与家庭进行人工校正,这样就获得了指代链和家庭网络的标准集。
实验结果(续) • 关系抽取性能
实验结果(续) • 指代消解性能
实验结果(续) • 家庭网络性能
实验结果(续) • 构建的示例家庭
展望 • 下一步的工作 • 主要先考虑如何进一步的扩大家庭数目,提高召回率。 • 如何考量不同家庭之间的关系,进行连接,拓展家庭网络。 • 考虑如何使用依存句法树来进行人物关系的拓展。