1 / 19

知网的研发策略

知网的研发策略. 董振东 中科院计算机语言信息工程研究中心 dzd.keenage.com 上海复旦 2004-07. 提纲. 知网浏览 研发策略. 知网浏览. 浏览器 规模 数据记录、概念 DEF 关系 概念相关性计算器 概念相似度计算器. 相似度. 同源角色框架. 同义 / 近义. 反义. 对义. 属性 - 宿主. 属性 - 属性值. 涉入. 典型演员. 事件关系与角色转换. 领域. 上位 / 下位. 部件 - 整体. 相关性. 研发策略. 需求牵引 性质定位 坚持创新

mrinal
Download Presentation

知网的研发策略

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 知网的研发策略 董振东 中科院计算机语言信息工程研究中心 dzd.keenage.com 上海复旦 2004-07

  2. 提纲 • 知网浏览 • 研发策略

  3. 知网浏览 • 浏览器 • 规模 • 数据记录、概念DEF • 关系 • 概念相关性计算器 • 概念相似度计算器

  4. 相似度 同源角色框架 同义 / 近义 反义 对义 属性-宿主 属性-属性值 涉入 典型演员 事件关系与角色转换 领域 上位 / 下位 部件-整体 相关性

  5. 研发策略 • 需求牵引 • 性质定位 • 坚持创新 • 概念设计 • 系统架构 • 工程实施 • 自我评测 • 应用反馈

  6. 需求牵引 • 宏观需求 • 微观需求 • 句法结构排歧 (SSD) • 词语意义排歧 (WSD)

  7. 句法结构排歧 (1) V N 的 N 1提高产品的质量 (I型) 2解决问题的方法 (II型) 知网义原层级体系:V是816类,N是401类 VN的N的最大组合是: 816 x 401 x 401 因此VN的N是可计算的。

  8. 句法结构排歧 (2) 只用知网的最上一级:即万物、部件、属性、时间、空间,以及属性值、事件七大类就可以解决不少问题: 事件 +实体 +(的) +属性 有可能是II型(解决问题的方法) 吗? 改变家乡的面貌 提高患者的生活质量 提高火车的速度 增加商品的花色品种 改善工人的待遇 调查学生的家庭状况 增强机体的活力 培养孩子的良好习惯 降低患者的免疫力 增强运动员的爆发力

  9. 词语意义排歧 (1) 黄 1. {yellow|黄} ~皮肤,~眼睛,~头发,~丝带,~衣服,~皮鞋,~玫瑰,墙是~的,地板是~的,脸色有点~ 2. {surname|姓} 姓~,~姓,~先生,~太太,~小姐,~女士,老~,小~,~大哥,~叔,~公,~爷爷,~伯伯,~伯母,~老爷,~家老二,~氏家族,~经理,~主任,~校长,~院长,~处长,~大使,~总理,~部长,~书记,~教授,~老师,~大夫,~护士长,~队,~总,~工

  10. 词语意义排歧 (2) • 概念相似度计算 参赞皮肤 0.018605 参赞 皮鞋 0.021053 参赞太太 0.375000 参赞 经理 0.581818 参赞 大使 0.950000 • 概念相关性计算 pen

  11. 性质定位 基础研究  应用研究  应用开发  产品研制 | 基础 资源 理论 建设 | 专用 通用 资源 资源

  12. 坚持创新 • 为何采用义原及其关系标注? • 为何要纳入虚词? • 为何不用SUMO的term替代自己的义原?

  13. 概念设计 1. 常识性(语言外)知识库对世界的认识 万物及其部件在特定的时间和空间, 改变着属性, 体现于属性值 2. 常识性知识库的灵魂是:关系 – 静态和动态

  14. 系统架构 (1) 1. 以概念为基本描述单位,而不是以词语 2. 对概念采取义原标注而不是简单的分类 3. 设计知识数据描述语言 4. 语言外知识库应不依赖特定语言: 双语 5. 严格规定范畴:控制句法和语用

  15. 系统架构 (2) 义原分类层级体系: 2227 实体 Entity 154 万物thing (physical, mental, fact) 部分component (part, fitting) 时间time 空间space (direction, location) 属性Attribute 247 事件Event (relation, state; action) 816 属性值AttributeValue 889 次要特征 Secondary feature 121

  16. 工程实施 • 控制返工 • 人工为主 • 螺旋式扩充

  17. 自我评测 • 开发二次资源 • 概念相关性计算 • 概念相似度计算 • 询问扩展 • 中文信息结构抽取

  18. 应用反馈 • 发现问题的改正或补充 • 应用需求

  19. 谢谢!

More Related