1 / 46

开放 式 中文 实体 关系 抽取 研究

开放 式 中文 实体 关系 抽取 研究. 导师:秦兵教授 学生:刘安安 日期: 2013 年 6 月 27 日. 大纲. 绪论 面向句子级的开放式实体关系抽取 面向互联网的开放式实体关系抽取 开放式实体关系类型体系自动构建 结论. 大纲. 绪论 面向句子级的开放式实体关系抽取 面向互联网的开放式实体关系抽取 开放式实体关系类型体系自动构建 结论. 绪论. 问题的提出 预先定义关系类型局限性 人工定义,类型少 ,限定 域,移植性差 实体关系往往由上下文中 的关系指示词 描述 关系指示词主要 是 动词 和 名词

Download Presentation

开放 式 中文 实体 关系 抽取 研究

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 开放式中文实体关系抽取研究 导师:秦兵教授 学生:刘安安 日期:2013年6月27日

  2. 大纲 • 绪论 • 面向句子级的开放式实体关系抽取 • 面向互联网的开放式实体关系抽取 • 开放式实体关系类型体系自动构建 • 结论

  3. 大纲 • 绪论 • 面向句子级的开放式实体关系抽取 • 面向互联网的开放式实体关系抽取 • 开放式实体关系类型体系自动构建 • 结论

  4. 绪论 • 问题的提出 • 预先定义关系类型局限性 • 人工定义,类型少,限定域,移植性差 • 实体关系往往由上下文中的关系指示词描述 • 关系指示词主要是动词和名词 • 此次爱丽丝的身边多了一位女战士,就是华人女星李冰冰饰演的艾达·王。 • 媒体试图联系徐妈妈求证,但电话一直处于人工秘书台状态,汪小菲妈妈张兰也始终拒接电话 。 • 三元组识别 • (李冰冰,饰演,艾达·王) • (汪小菲,妈妈,张兰) Open IE

  5. 绪论 大规模网络文本 句子 • 研究内容 第2章 面向句子的开放式中文实体关系抽取 第3章 面向互联网的开放式中文实体关系抽取 关系三元组 第5章 开放式关系抽取平台 第4章 关系类型体系自动构建 关系类型体系

  6. 大纲 • 绪论 • 面向句子级的开放式实体关系抽取 • 面向互联网的开放式实体关系抽取 • 开放式实体关系类型体系自动构建 • 结论

  7. 面向句子级的开放式实体关系抽取 • 基于有指导的机器学习方法 • 语料预处理 • 语料分析 • 先识别实体对的方法 • 先识别关系指示词的方法

  8. 基于有指导的机器学习方法(1) • 语料以及预处理 • Ontonotes4.0中选取1000篇文本 • 分词、命名实体、共指关系、实体关系 • 使用ltp工具对其进行词性标注 • 正例(包含关系的实体对)3656个,反例(不包含关系)95401个 • 过滤反例 • 利用共指关系 • 如果两个实体存在共指,那么这两个实体不存在实体关系 • 正例3656个,反例86323个

  9. 基于有指导的机器学习方法(2) • 语料分析 • 93.6%的关系实例存在关系指示词 • 使用三元组来描述一个关系实例是可行的 • 其中大部分关系指示词在两个实体中间或者右边 • 占有关系指示词实例的95.94% • 哈尔滨工业大学<ORG>校长<relation_word>王树国<PER>。 • 梁朝伟<PER>是刘嘉玲<PER>的老公<relation_word>。 • 尝试了两种不同的方法 • 先识别实体对的方法 • 先识别关系指示词的方法

  10. 基于有指导的机器学习方法(3) • 先识别实体对的方法 • 最大熵模型判断实体之间是否有关系 • 特征 • 实体类型 • PER, LOC, ORG, TIME • 实体的词序列(特征泛化) • Feature(哈尔滨工业大学) = {哈尔滨,工业,大学} • 实体上下文的词性 • CRF模型识别关系指示词 • 如果实体对存在关系,使用该模型识别关系指示词 • 特征 • 词、词性、是否是实体

  11. 习近平 胡锦涛 {特征集合} 中华人民共和国中央军事委员会 胡锦涛 {特征集合} 习近平 中华人民共和国中央军事委员会 {特征集合} 实体对过滤 特征抽取 习近平 中华人民共和国中央军事委员会 {特征集合} 习近平当选为中华人民共和国中央军事委员会主席,与胡锦涛亲切握手。 识别关系指示词 实体识别 习近平 中华人民共和国中央军事委员会 主席 习近平当选为中华人民共和国中央军事委员会主席,与胡锦涛亲切握手。

  12. 基于有指导的机器学习方法(4) • 先识别实体对方法的实验结果 • 最大熵模型判断实体之间是否有关系 • 训练数据不平衡导致正例召回率低 • CRF模型识别关系指示词 • 两步级联后的实验结果

  13. 基于有指导的机器学习方法(5) • 先识别关系指示词的方法 • 直接在实体的上下文中识别关系指示词 • 如果识别出关系指示词则实体对存在关系 • 如果没有识别出关系指示词则不存在关系 • CRF模型 • 特征和先识别实体对的方法相同

  14. 基于有指导的机器学习方法(6) • 先识别关系指示词方法的实验结果 • 先识别关系指示词的方法比先识别实体对的方法好 • 先识别关系指示词的方法融合了反例的信息

  15. 大纲 • 绪论 • 面向句子级的开放式实体关系抽取 • 面向互联网的开放式实体关系抽取 • 开放式实体关系类型体系自动构建 • 结论

  16. 面向互联网的开放式实体关系抽取 • 方法来源 • 算法设计 • 实验

  17. 方法来源 • 方法的大概思想 • 关系指示词功能的单一性 • “爸爸” => “人-人” • “总裁” => “人-机构” • …… • 利用这种特性,把关系指示词找出来

  18. 算法设计(1)

  19. 算法设计(2) • 预处理 • 生成候选三元组 • 生成关系指示词词表 • 后处理

  20. 预处理 • 网页正文提取 • 自然语言处理 • LTP • 断句 • 分词 • 词性标注 • 命名实体识别

  21. 算法设计 • 预处理 • 生成候选三元组 • 生成关系指示词词表 • 后处理

  22. 生成候选三元组(1) • 实体之间的距离限制 候选三元组的两个实体之间词的数目不能超过maxDistance

  23. 生成候选三元组(1) • 实体之间的距离限制 候选三元组的两个实体之间词其他实体数量不能超过maxEntityDistance

  24. 生成候选三元组(2) • 关系指示词的位置限制 • 实体之间的名词和动词 • 第一个实体左边leftWordNumber个名词和动词 • 第二个实体右边rightWordNumber个名词和动词

  25. 算法设计 • 预处理 • 生成候选三元组 • 生成关系指示词词表 • 后处理

  26. 生成关系指示词词表 • 全局关系指示词排序 • 信息增益值评判一个词语是否适合作为关系指示词 • 类型关系指示词排序 • 判断关系指示词指示何种实体对类型之间的关系 • 过滤关系指示词 • topN(全局关系指示词) ∩ topK(类型关系指示词)

  27. 算法设计 • 预处理 • 生成候选三元组 • 生成关系指示词词表 • 后处理

  28. 后处理 • 使用关系指示词词表过滤三元组 • 使用句式规则过滤三元组 • 规则1:双动词结构(肖民 找到 黎恩) • 寻妹 心切 的 肖民 找到 黎恩告诉他 自己 为 恩怜 输血 的 事。 • 规则2:所有格(钟汉良 饰演叶开 ) • 钟汉良 与 饰演叶开 的陈楚河 就 被 网友 吐槽 说 “ 关系 微妙 ” 。 • 补全关系指示词 • 王树国担任哈尔滨工业大学 • 校长

  29. 实验(1) • 语料来源 • 百度百科160W个网页 • 新浪娱乐新闻(2008年-2012年) • 搜狗新闻语料(2006年) • 搜狗新闻语料(2012年6月到7月)

  30. 实验(2) • 关系指示词词表

  31. 实验(2) • 从文本中抽取的三元组

  32. 实验(3) • 实验设置 • UnCORE • 完整的系统 • UnCORE-post • UnCORE除去句式规则过滤和补全关系指示词两个步骤后的系统

  33. 实验(4) • 实验结果

  34. 实验(5) • 正确的三元组数量

  35. 实验(6) • 关系指示词数量随语料规模的变化

  36. 实验(7) • 三元组数量随语料规模的变化

  37. 实验(8) • Ontonotes4.0上的实验结果

  38. 大纲 • 绪论 • 面向句子级的开放式实体关系抽取 • 面向互联网的开放式实体关系抽取 • 开放式实体关系类型体系自动构建 • 结论

  39. 开放式实体关系类型体系自动构建 • 算法设计 • 相似度计算 • 聚类 • 实验

  40. 算法设计(1) • 系统流程

  41. 算法设计(2) • 相似度计算 • HowNet • RNN-LM • 聚类 • 层次聚类 • 单连通 • 全连通 • 近邻传播算法

  42. 实验(1) • 实验设置

  43. 实验(2) • 实验结果

  44. 大纲 • 绪论 • 面向句子级的开放式实体关系抽取 • 面向互联网的开放式实体关系抽取 • 开放式实体关系类型体系自动构建 • 结论

  45. 结论 • 针对句子级的开放式实体关系抽取任务,提出了有指导的方法 • 针对互联网的开放式实体关系抽取任务,提出了无指导的方法 • 自动构建关系类型体系,避免了人工参与 • 搭建了开放式实体关系抽取演示系统 • 面向句子级 • 面向互联网

  46. Thanks Q?A

More Related