1 / 14

实体关系高效发现

实体关系高效发现. 何靖 刘源 涂启琛 姚从磊 邸楠 2007.3. 提纲 — 五个问题. 任务是什么 ?-- 实体关系发现 现有的方法是什么? -- 相关研究 如何定义实体间具有关系? -- 指标确定 如何有效地发现实体? -- 算法和实现 方法有效吗? -- 验证和实验 结论是什么?. 1. 任务是什么. 背景: Web v.s real life 目标:发现 Web 上的实体和他们的关系 本文重点: 提高发现实体之间关系的效率 不关心实体间关系的具体类型. 2. 已有的实体关系发现方法. 所有方法的思想 实体共现 实体关系 几个数量

Download Presentation

实体关系高效发现

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 实体关系高效发现 何靖 刘源 涂启琛 姚从磊 邸楠 2007.3

  2. 提纲—五个问题 • 任务是什么?--实体关系发现 • 现有的方法是什么?--相关研究 • 如何定义实体间具有关系?--指标确定 • 如何有效地发现实体?--算法和实现 • 方法有效吗?--验证和实验 • 结论是什么?

  3. 1.任务是什么 • 背景:Web v.s real life • 目标:发现Web上的实体和他们的关系 • 本文重点: • 提高发现实体之间关系的效率 • 不关心实体间关系的具体类型

  4. 2.已有的实体关系发现方法 • 所有方法的思想 • 实体共现实体关系 • 几个数量 • 文档集大小= N; 感兴趣实体集合大小=n • 方法一:O(N) • 扫描文档集,获得所有实体的关系 • 方法二:O(n^2) • 对兴趣实体集合,每对分别检索 • 方法三:O(n) • 对兴趣实体集合,单个检索,发现包含共现实体的文档 • Drawback: • 难以通过search engine获得包含实体的所有网页 • 检索出来的网页依旧有很多是无用的—不包含感兴趣实体 • 如果只选取top网页,表现出来的关系比应有关系稀疏

  5. 3.如何定义实体间具有关系? • 基本思路:采用共现 • 衡量共现的一些指标 • Mutual Information • Dice Coefficient • Overlap Coefficient • Jaccard Coefficient • Cosine Coefficient

  6. 3.如何定义实体间具有关系? • 测试共现有效性的实验 • Step1:根据指标获得两两实体的指标量 • Step2:对每个实体,根据指标量对相关实体进行排序 • Step3: 5个指标选取topN结果进入pooling • Step4: 人工判断具有关系/不具有关系 • Step5: 用两个实验量:MAP, PR11测试共现有效性

  7. 3.如何定义实体间具有关系? • 实验结果 • 采用Cosine作为指标

  8. 4.有效地发现实体—基本思想 • 基本思想 • 利用聚类系数比较大这一特征 • 聚类系数定义

  9. 4.有效地发现实体—基本思想 • 验证以上直觉印象

  10. 4.有效地发现实体—算法一 • 图聚类算法: • 输入:兴趣实体集合 • 初始化: • 检索实体i, 获得top m网页 • 提取出现在这些网页中的实体 • 设置关系矩阵M[i][j] = 实体j在实体i的top m中出现的次数/实体i的top m中出现的实体次数 • 迭代聚类:反复以下以致变化程度小于阈值 • 归一:一行所有元素和为1 • 游走:Me • 增距:M[i][j] = M[i][j]λ • 每个实体的top k作为候选实体,采用cosine验证

  11. 4.有效地发现实体—算法二 • 算法一不能完全解决关系稀疏问题 • 算法二:概率算法 • 顺序加入实体e,初始化它和其他实体关系概率为平均关系密度 • 迭代过程:以致和其他所有实体关系概率低于阈值 • 测试e与已有集合中具有最高关系概率的实体的关系 • 采用聚类系数、反聚类系数扩散,更新与周围实体的关系概率

  12. 5.方法有效吗?

  13. 5.方法有效吗?

  14. 6.结论 • Cosine是衡量实体关系的有效指标 • 实体关系发现的算法选择 • 需要高效率的时候—采用图聚类方法 • 需要高召回率的时候—采用概率算法

More Related