550 likes | 826 Views
开放 式 中文 实体 关系 抽取 研究. 导师:秦兵教授 学生:刘安安 日期: 2013 年 6 月 27 日. 大纲. 绪论 面向句子级的开放式实体关系抽取 面向互联网的开放式实体关系抽取 开放式实体关系类型体系自动构建 结论. 大纲. 绪论 面向句子级的开放式实体关系抽取 面向互联网的开放式实体关系抽取 开放式实体关系类型体系自动构建 结论. 绪论. 问题的提出 预先定义关系类型局限性 人工定义,类型少 ,限定 域,移植性差 实体关系往往由上下文中 的关系指示词 描述 关系指示词主要 是 动词 和 名词
E N D
开放式中文实体关系抽取研究 导师:秦兵教授 学生:刘安安 日期:2013年6月27日
大纲 • 绪论 • 面向句子级的开放式实体关系抽取 • 面向互联网的开放式实体关系抽取 • 开放式实体关系类型体系自动构建 • 结论
大纲 • 绪论 • 面向句子级的开放式实体关系抽取 • 面向互联网的开放式实体关系抽取 • 开放式实体关系类型体系自动构建 • 结论
绪论 • 问题的提出 • 预先定义关系类型局限性 • 人工定义,类型少,限定域,移植性差 • 实体关系往往由上下文中的关系指示词描述 • 关系指示词主要是动词和名词 • 此次爱丽丝的身边多了一位女战士,就是华人女星李冰冰饰演的艾达·王。 • 媒体试图联系徐妈妈求证,但电话一直处于人工秘书台状态,汪小菲妈妈张兰也始终拒接电话 。 • 三元组识别 • (李冰冰,饰演,艾达·王) • (汪小菲,妈妈,张兰) Open IE
绪论 大规模网络文本 句子 • 研究内容 第2章 面向句子的开放式中文实体关系抽取 第3章 面向互联网的开放式中文实体关系抽取 关系三元组 第5章 开放式关系抽取平台 第4章 关系类型体系自动构建 关系类型体系
大纲 • 绪论 • 面向句子级的开放式实体关系抽取 • 面向互联网的开放式实体关系抽取 • 开放式实体关系类型体系自动构建 • 结论
面向句子级的开放式实体关系抽取 • 基于有指导的机器学习方法 • 语料预处理 • 语料分析 • 先识别实体对的方法 • 先识别关系指示词的方法
基于有指导的机器学习方法(1) • 语料以及预处理 • Ontonotes4.0中选取1000篇文本 • 分词、命名实体、共指关系、实体关系 • 使用ltp工具对其进行词性标注 • 正例(包含关系的实体对)3656个,反例(不包含关系)95401个 • 过滤反例 • 利用共指关系 • 如果两个实体存在共指,那么这两个实体不存在实体关系 • 正例3656个,反例86323个
基于有指导的机器学习方法(2) • 语料分析 • 93.6%的关系实例存在关系指示词 • 使用三元组来描述一个关系实例是可行的 • 其中大部分关系指示词在两个实体中间或者右边 • 占有关系指示词实例的95.94% • 哈尔滨工业大学<ORG>校长<relation_word>王树国<PER>。 • 梁朝伟<PER>是刘嘉玲<PER>的老公<relation_word>。 • 尝试了两种不同的方法 • 先识别实体对的方法 • 先识别关系指示词的方法
基于有指导的机器学习方法(3) • 先识别实体对的方法 • 最大熵模型判断实体之间是否有关系 • 特征 • 实体类型 • PER, LOC, ORG, TIME • 实体的词序列(特征泛化) • Feature(哈尔滨工业大学) = {哈尔滨,工业,大学} • 实体上下文的词性 • CRF模型识别关系指示词 • 如果实体对存在关系,使用该模型识别关系指示词 • 特征 • 词、词性、是否是实体
习近平 胡锦涛 {特征集合} 中华人民共和国中央军事委员会 胡锦涛 {特征集合} 习近平 中华人民共和国中央军事委员会 {特征集合} 实体对过滤 特征抽取 习近平 中华人民共和国中央军事委员会 {特征集合} 习近平当选为中华人民共和国中央军事委员会主席,与胡锦涛亲切握手。 识别关系指示词 实体识别 习近平 中华人民共和国中央军事委员会 主席 习近平当选为中华人民共和国中央军事委员会主席,与胡锦涛亲切握手。
基于有指导的机器学习方法(4) • 先识别实体对方法的实验结果 • 最大熵模型判断实体之间是否有关系 • 训练数据不平衡导致正例召回率低 • CRF模型识别关系指示词 • 两步级联后的实验结果
基于有指导的机器学习方法(5) • 先识别关系指示词的方法 • 直接在实体的上下文中识别关系指示词 • 如果识别出关系指示词则实体对存在关系 • 如果没有识别出关系指示词则不存在关系 • CRF模型 • 特征和先识别实体对的方法相同
基于有指导的机器学习方法(6) • 先识别关系指示词方法的实验结果 • 先识别关系指示词的方法比先识别实体对的方法好 • 先识别关系指示词的方法融合了反例的信息
大纲 • 绪论 • 面向句子级的开放式实体关系抽取 • 面向互联网的开放式实体关系抽取 • 开放式实体关系类型体系自动构建 • 结论
面向互联网的开放式实体关系抽取 • 方法来源 • 算法设计 • 实验
方法来源 • 方法的大概思想 • 关系指示词功能的单一性 • “爸爸” => “人-人” • “总裁” => “人-机构” • …… • 利用这种特性,把关系指示词找出来
算法设计(2) • 预处理 • 生成候选三元组 • 生成关系指示词词表 • 后处理
预处理 • 网页正文提取 • 自然语言处理 • LTP • 断句 • 分词 • 词性标注 • 命名实体识别
算法设计 • 预处理 • 生成候选三元组 • 生成关系指示词词表 • 后处理
生成候选三元组(1) • 实体之间的距离限制 候选三元组的两个实体之间词的数目不能超过maxDistance
生成候选三元组(1) • 实体之间的距离限制 候选三元组的两个实体之间词其他实体数量不能超过maxEntityDistance
生成候选三元组(2) • 关系指示词的位置限制 • 实体之间的名词和动词 • 第一个实体左边leftWordNumber个名词和动词 • 第二个实体右边rightWordNumber个名词和动词
算法设计 • 预处理 • 生成候选三元组 • 生成关系指示词词表 • 后处理
生成关系指示词词表 • 全局关系指示词排序 • 信息增益值评判一个词语是否适合作为关系指示词 • 类型关系指示词排序 • 判断关系指示词指示何种实体对类型之间的关系 • 过滤关系指示词 • topN(全局关系指示词) ∩ topK(类型关系指示词)
算法设计 • 预处理 • 生成候选三元组 • 生成关系指示词词表 • 后处理
后处理 • 使用关系指示词词表过滤三元组 • 使用句式规则过滤三元组 • 规则1:双动词结构(肖民 找到 黎恩) • 寻妹 心切 的 肖民 找到 黎恩告诉他 自己 为 恩怜 输血 的 事。 • 规则2:所有格(钟汉良 饰演叶开 ) • 钟汉良 与 饰演叶开 的陈楚河 就 被 网友 吐槽 说 “ 关系 微妙 ” 。 • 补全关系指示词 • 王树国担任哈尔滨工业大学 • 校长
实验(1) • 语料来源 • 百度百科160W个网页 • 新浪娱乐新闻(2008年-2012年) • 搜狗新闻语料(2006年) • 搜狗新闻语料(2012年6月到7月)
实验(2) • 关系指示词词表
实验(2) • 从文本中抽取的三元组
实验(3) • 实验设置 • UnCORE • 完整的系统 • UnCORE-post • UnCORE除去句式规则过滤和补全关系指示词两个步骤后的系统
实验(4) • 实验结果
实验(5) • 正确的三元组数量
实验(6) • 关系指示词数量随语料规模的变化
实验(7) • 三元组数量随语料规模的变化
实验(8) • Ontonotes4.0上的实验结果
大纲 • 绪论 • 面向句子级的开放式实体关系抽取 • 面向互联网的开放式实体关系抽取 • 开放式实体关系类型体系自动构建 • 结论
开放式实体关系类型体系自动构建 • 算法设计 • 相似度计算 • 聚类 • 实验
算法设计(1) • 系统流程
算法设计(2) • 相似度计算 • HowNet • RNN-LM • 聚类 • 层次聚类 • 单连通 • 全连通 • 近邻传播算法
实验(1) • 实验设置
实验(2) • 实验结果
大纲 • 绪论 • 面向句子级的开放式实体关系抽取 • 面向互联网的开放式实体关系抽取 • 开放式实体关系类型体系自动构建 • 结论
结论 • 针对句子级的开放式实体关系抽取任务,提出了有指导的方法 • 针对互联网的开放式实体关系抽取任务,提出了无指导的方法 • 自动构建关系类型体系,避免了人工参与 • 搭建了开放式实体关系抽取演示系统 • 面向句子级 • 面向互联网
Thanks Q?A