790 likes | 1.28k Views
Web 文本中的实体 消歧. 韩先培 xianpei@nfs.iscas.ac.cn 信息检索研究室 , 中国科学院软件研究所. 提纲. 研究背景 实体聚类消歧 语义知识挖掘 基于语义的实体消歧 实体链接消歧 基于实体 - 提及模型的实体 链接 基于图的协同实体链接 总结与展望. 提纲. 研究背景 实体聚类消歧 语义知识挖掘 基于语义的实体消歧 实体链接消歧 基于实体 - 提及模型的实体 链接 基于图的协同实体链接 总结与展望. 背 景 (1) : 实体歧义. 实体歧义指的是 同 一名字在不同上下文中可对应不同的实体
E N D
Web文本中的实体消歧 韩先培 xianpei@nfs.iscas.ac.cn 信息检索研究室, 中国科学院软件研究所
提纲 • 研究背景 • 实体聚类消歧 • 语义知识挖掘 • 基于语义的实体消歧 • 实体链接消歧 • 基于实体-提及模型的实体链接 • 基于图的协同实体链接 • 总结与展望 信息检索研究室-中科院软件所
提纲 • 研究背景 • 实体聚类消歧 • 语义知识挖掘 • 基于语义的实体消歧 • 实体链接消歧 • 基于实体-提及模型的实体链接 • 基于图的协同实体链接 • 总结与展望 信息检索研究室-中科院软件所
背景(1): 实体歧义 • 实体歧义指的是同一名字在不同上下文中可对应不同的实体 MJ1: Michael Jordan is a researcher in machine learning. MJ2: Learning in Graphical Models: Michael Jordan MJ3: Michael Jordan wins NBA MVP. MJ4 : Michael Jordan plays basketball in Chicago Bulls. • 给知识工程、信息检索和自然语言理解等任务带来问题
背景(2):连接文本和知识 • Web上有许多迅速增长的大规模知识库 • Wikipedia, Freebase, Yago, DBPedia, etc. • 百度百科、互动百科等等 • 这些知识库包含了丰富的实体、属性和关系知识 • 利用这些知识库中的知识 • 前提:连接文本中的实体与知识库中的实体 • 可为基于知识的NLP和IR系统提供关键基础 IR Laboratory, ISCAS
During his standout career at , also acts in the movie . Bulls Space Jam Jordan Knowledge Base Basketball Player Sport Organization IS-A IS-A IS-A NBA Player NBA Team NBA IS-A IS-A Part-of Employer-of Michael Jordan Chicago Bulls Actor-of Space Jam
命名实体消歧形式化 • 一个命名实体消歧系统是一个六元组 • 待消歧名字集合N,如{乔丹,李鹏, …} • 目标实体集E,如{NBA球星乔丹,Berkeley教授乔丹,爱尔兰政治家乔丹…} • 消歧文档集D,如Web网页集,乔丹的前100个搜索结果,… • 实体指称集O,即实体名在D中的出现加上下文,如{(乔丹,…十大灌篮), (乔丹,NBA统计数据),…} • 背景知识库K,如维基百科 • 消歧义算法:
命名实体消歧方法 • 实体聚类消歧 • 目标实体列表E没有给定 • 把所有指称项聚类 • 聚出来的每一个类别对应一个单独的实体 • 实体链接消歧 • 目标实体列表E给定 • 将实体指称项与其在实体表中对应实体进行链接实现消歧
提纲 • 研究背景 • 实体聚类消歧 • 语义知识挖掘 • 基于语义的实体消歧 • 实体链接消歧 • 基于实体-提及模型的实体链接 • 基于图的协同实体链接 • 总结与展望 信息检索研究室-中科院软件所
现有方法 • 关键在于如何计算实体指称项之间的相似度 • 传统方法通常采用词袋子模型进行计算 • 实体指称项之间的相似度由词的同现决定 • 有时通过抽取实体属性来扩展特征或进行约束 • 如人物的出生日期,职业,单位,出生地等 MJ1:Michael Jordan is a NBA player MJ2:Michael Jordan wins NBA MVP
现有方法缺点 • 基于词袋子模型的相似度忽略了大部分的语义知识,如 • 概念之间的语义关联: Jordan … Machine learningvs. Learningin Graphical Models … Jordan • 词语之间的词汇化关联: Jordan is a footballervs. Jordan is a football player • 实体之间的社会化关联 Jordan wins NBA MVP vs. Jordan … Chicago Bulls 高性能的命名实体消歧需要有语义知识作为支撑
问题 • 如何获取准确、高覆盖率的语义知识 • 概念之间的语义关联 • 如何基于语义知识构建高性能命名实体消歧系统 • 语义相似度计算
提纲 • 研究背景 • 实体聚类消歧 • 语义知识挖掘 • 基于语义的实体消歧 • 实体链接消歧 • 基于实体-提及模型的实体链接 • 基于图的协同实体链接 • 总结与展望 信息检索研究室-中科院软件所
语义知识源 • 互联网上存在着大量的语义知识源 • 结构化的知识源,如Wikipedia、Freebase和OpenCyc等; • 非结构化的知识源,如网页库,文本库; • 但是 • 这些知识源通常是多源异构的 • 语义知识通常以隐藏的形式出现 带链接的网页 文本库内实体的共现次数 (NBA, Chicago Bulls): 5,630,000 (EMNLP, ACL): 108,000 (EMNLP, NBA): 484 … 如何解释这些统计量的语义?
挑战 • 如何从知识源中挖掘出隐藏的语义知识? • 如何集成来自不同知识源的语义知识? 文本库内实体的共现次数 (NBA, Chicago Bulls): 5,630,000 (EMNLP, ACL): 108,000 (EMNLP, NBA): 484 … 如何解释这些统计量的语义? 带链接 网页
结构化知识源(Wikipedia) • 大规模在线百科全书(用于捕捉概念之间的语义关联) • 超过300万个条目 • 超链接结构表现的语义知识 • 重定向页面(同义关系) • 消歧页面(多义关系) • 关联关系(其它超链接)
结构化知识源(WordNet) • 英语词汇知识的知识库(用于捕捉词语之间的语言学关联) • 11万英文词汇的词义 • 词义之间的各种语义关系,例如(kind of), holonym (part of), synonym等 18
非结构化知识源(文本库) • 大量文本的集合,如Web网页库 • 基于模糊集合理论,使用文本库的实体同现信息来捕捉命名实体之间的社会化关联 • 使用Google Similarity Distance进行计算 共现次数 (NBA, Chicago Bulls): 5,630,000 (EMNLP, ACL): 108,000 (EMNLP, NBA): 484 … 如何解释这些统计量的语义?
问题 • 知识源的多源异构性 • 包含不同的概念:Wikipedia包含实体概念,WordNet包含通用概念 • 包含不同的关系:Wikipedia包含实体概念之间关联关系,WordNet包含词语之间的词汇关系 • 解决方法:融合多源信息的语义关联 • 大部分语义知识隐藏在复杂结构中 • 解决方法:结构化的语义关联
语义图 • 处理知识源的多源异构性 • 统一的语义知识表示模型 • 图的节点表示独立概念 • 图的边表示概念之间是否存在语义关系 • 边的权重表示语义关系的强度
结构化语义关联(1) • 语义图中语义知识的挖掘和融合算法 • 语义图中语义知识的两种表现形式 • 语义图的边(显式语义知识)——建模了所有从知识源中直接抽取出的概念之间的显式语义关联 • 语义图的结构(结构化语义知识)——建模了概念之间的隐藏语义关联
结构化语义关联(2) • 计算原则:“如果一个概念的关联概念与另一个概念存在语义关联,则这个概念也与另一个概念存在语义关联” • 传递性:语义关联在图中是传递的 • 递归性:计算原则是递归地,选取语义图边信息作为递归开始点 邻居节点传递 显式语义关联
结构化语义关联(示例) 挖掘出的隐藏语义关联
提纲 • 研究背景 • 实体聚类消歧 • 语义知识挖掘 • 基于语义的实体消歧 • 实体链接消歧 • 基于实体-提及模型的实体链接 • 基于图的协同实体链接 • 总结与展望 信息检索研究室-中科院软件所
研究成果 • 基于结构化语义关联的相似度计算 • 实体指称项的概念向量表示 • 概念对齐 • 相似度计算 • 在相似度计算中加入概念之间的语义关联,有效提升实体消歧系统的性能
指称项的概念向量表示 • 每一个实体指称项被表示为概念的向量 • 每一个特征都是真实意义上的语义单元 • 概念权重取决于它与表示中其它概念的语义关联度 MJ1: Michael Jordan is a leading researcher in machine learning and artificial intelligence. MJ2: Michael Jordan has published over 300 research articles on topics in computer science, statistics and cognitive science
概念对齐 • 识别两个指称项概念表示之间的对齐关系 • 对每一个概念c,将其与另一表示中与其有最大语义关联度的概念对齐 • 处理表示的稀疏问题,以及概念的对应关系
相似度计算(1) • 一个指称项到另一个指称项的语义关联被定义为“所有对齐概念语义关联的带权平均” 概念语义关联 权重
相似度计算(2) • 考虑到对齐的非对称性,两个指称项之间的相似度被定义为从ol到ok的和从ok到ol的语义关联度平均 • 相似度考虑了两个方面: • 表示中概念的对应关系 • 指称项概念的语义关联
实体指称项聚类算法 • 实体指称项根据它们之间的相似度进行聚类 • 相似度阈值通过留一测试(Leave-one-out)确定 Distance MJ1 MJ2 MJ3 MJ4
实验 • 使用WePS数据集测试 • 使用结构化关联语义核的实体相似度能够提升10.7%的消歧性能
vs. State-of-Art 与WePS2系统性能对比 与WePS1系统性能对比
提纲 • 研究背景 • 实体聚类消歧 • 语义知识挖掘 • 基于语义的实体消歧 • 实体链接消歧 • 基于实体-提及模型的实体链接 • 基于图的协同实体链接 • 总结与展望 信息检索研究室-中科院软件所
实体链接 • 将文本中实体提及与其知识库中的所指进行链接实现消歧 • 知识库作为真实世界的映射 • 实现文本到知识的连接 • 考虑到实体链接依赖于大量背景知识,提出 • 基于实体-提及模型的实体链接算法 • 考虑到篇章中实体之间的主题一致性,提出 • 基于图的协同实体链接算法 信息检索研究室-中科院软件所
实体链接--Demo 文本 知识库 ID: 00000002 Name: 迈克尔·乔丹 Category: Basketball Player Description: “美国NBA著名篮球 运动员,被称为“空中飞人,…” Name: 美利坚合众国 Category : Country Description: “是一个宪政联邦共和制国家,…” Name: National Basketball Association Category : Basketball Association Description: “美国第一大职业篮球联盟,…” Name: 耐克公司 Category : Sportswear Company Description: “全球著名的体育用品公司,…” 迈克尔·乔丹 : 美国 NBA 著名 篮球 运动员,他为 联盟 带来至少100亿的收入,也把 耐克公司 从一家小公司 … 公民 ID: 00010992 球员 位于 赞助商 ID: 10010974 赞助商 ID: 50610007 信息检索研究室-中科院软件所
提纲 • 研究背景 • 实体聚类消歧 • 语义知识挖掘 • 基于语义的实体消歧 • 实体链接消歧 • 基于实体-提及模型的实体链接 • 基于图的协同实体链接 • 总结与展望 信息检索研究室-中科院软件所
基于实体-提及模型的实体链接 • 实体链接依赖于大量背景知识 • 实体的Popularity(知名度)知识 • 新闻中更可能出现朱德(将军),而不是朱德(理发师) • 实体的名字知识 • IBM比全称International Business Machines更容易作为IBM公司的名字出现 • 实体的上下文知识 • 词NBA更可能出现在NBA球星乔丹周围,而不是机器学习教授乔丹 • 提出了实体-提及模型来融合上述异构知识 信息检索研究室-中科院软件所
﹖ √ ACL会议 关键在于如何建模实体的知名度知识、名字知识和上下文知识 ﹖ ╳
实体-提及模型(EM Model) 在实体-提及模型中,每一个命名性提及m都被建模为通过下述生成过程(generative story)产生的样本 : KB 1. EM Model根据实体的知名度P(e)选取提及m的目标实体e 实体的知名度知识、名字知识和上下文知识依次被建模为概率分布P(e), P(s|e), P(c|e) NBA球星迈克尔乔丹 2. EM Model根据实体的名字知识P(s|e)选取提及m的名字s 乔丹 3. EM Model根据实体的上下文知识P(c|e)输出提及m的上下文c 乔丹在1984年加入NBA 信息检索研究室-中科院软件所
基于实体-提及模型的实体链接 • 基于上述模型, 实体e是提及m目标实体的概率: • 模型选择能最大化条件概率P(e|m)的实体e作为其提及m的目标实体 信息检索研究室-中科院软件所
模型估计 Graph based Interdependence Modeling
训练语料 • 训练语料是基于Wikipedia超链接结构构建的语料 • 共包含超过23,000,000标注好的实体链接语料
实体知名度模型—P(e) • 建模“特定实体的知名度”的知识,我们将其量化为在文章中提起该特定实体的概率P(e) • 某种程度上是实体e作为提及m目标实体的先验概率
实体知名度模型 • 一个更知名的实体会在大文档集(如Web)中出现更多次,因此P(e)可以通过如下方式估计 : 实体e出现次数 所有实体的出现次数
实体名字模型– P(s|e) • 建模“我们如何称呼一个实体”的知识 • 许多种方式:全名, 别名, 缩写或者拼写错误 • 是处理实体名字多样性问题的关键知识
实体名字模型 • 我们假设实体名s是实体全名f的一个IBM模型1翻译 • 一个词可以通过如下方式翻译 • 保持原始形式: 迈克尔 迈克尔 • 缩写: 亲爱的 亲 • 省略:温家宝 总理 … 总理 • 翻译为其它词语:乔丹 佐顿,乔丹神
实体名字模型 • 基于IBM translation model I,使用Giza++训练
实体上下文模型—P(c|e) • 建模“我们谈论实体的哪些内容” • 提供消歧的核心证据 • 词NBA的出现可以为乔丹指向NBA球星乔丹提供多少证据? • 词统计的出现可以为乔丹指向机器学习教授乔丹提供多少证据? • 如果同时出现词NBA和统计呢?