190 likes | 349 Views
知网的研发策略. 董振东 中科院计算机语言信息工程研究中心 dzd.keenage.com 上海复旦 2004-07. 提纲. 知网浏览 研发策略. 知网浏览. 浏览器 规模 数据记录、概念 DEF 关系 概念相关性计算器 概念相似度计算器. 相似度. 同源角色框架. 同义 / 近义. 反义. 对义. 属性 - 宿主. 属性 - 属性值. 涉入. 典型演员. 事件关系与角色转换. 领域. 上位 / 下位. 部件 - 整体. 相关性. 研发策略. 需求牵引 性质定位 坚持创新
E N D
知网的研发策略 董振东 中科院计算机语言信息工程研究中心 dzd.keenage.com 上海复旦 2004-07
提纲 • 知网浏览 • 研发策略
知网浏览 • 浏览器 • 规模 • 数据记录、概念DEF • 关系 • 概念相关性计算器 • 概念相似度计算器
相似度 同源角色框架 同义 / 近义 反义 对义 属性-宿主 属性-属性值 涉入 典型演员 事件关系与角色转换 领域 上位 / 下位 部件-整体 相关性
研发策略 • 需求牵引 • 性质定位 • 坚持创新 • 概念设计 • 系统架构 • 工程实施 • 自我评测 • 应用反馈
需求牵引 • 宏观需求 • 微观需求 • 句法结构排歧 (SSD) • 词语意义排歧 (WSD)
句法结构排歧 (1) V N 的 N 1提高产品的质量 (I型) 2解决问题的方法 (II型) 知网义原层级体系:V是816类,N是401类 VN的N的最大组合是: 816 x 401 x 401 因此VN的N是可计算的。
句法结构排歧 (2) 只用知网的最上一级:即万物、部件、属性、时间、空间,以及属性值、事件七大类就可以解决不少问题: 事件 +实体 +(的) +属性 有可能是II型(解决问题的方法) 吗? 改变家乡的面貌 提高患者的生活质量 提高火车的速度 增加商品的花色品种 改善工人的待遇 调查学生的家庭状况 增强机体的活力 培养孩子的良好习惯 降低患者的免疫力 增强运动员的爆发力
词语意义排歧 (1) 黄 1. {yellow|黄} ~皮肤,~眼睛,~头发,~丝带,~衣服,~皮鞋,~玫瑰,墙是~的,地板是~的,脸色有点~ 2. {surname|姓} 姓~,~姓,~先生,~太太,~小姐,~女士,老~,小~,~大哥,~叔,~公,~爷爷,~伯伯,~伯母,~老爷,~家老二,~氏家族,~经理,~主任,~校长,~院长,~处长,~大使,~总理,~部长,~书记,~教授,~老师,~大夫,~护士长,~队,~总,~工
词语意义排歧 (2) • 概念相似度计算 参赞皮肤 0.018605 参赞 皮鞋 0.021053 参赞太太 0.375000 参赞 经理 0.581818 参赞 大使 0.950000 • 概念相关性计算 pen
性质定位 基础研究 应用研究 应用开发 产品研制 | 基础 资源 理论 建设 | 专用 通用 资源 资源
坚持创新 • 为何采用义原及其关系标注? • 为何要纳入虚词? • 为何不用SUMO的term替代自己的义原?
概念设计 1. 常识性(语言外)知识库对世界的认识 万物及其部件在特定的时间和空间, 改变着属性, 体现于属性值 2. 常识性知识库的灵魂是:关系 – 静态和动态
系统架构 (1) 1. 以概念为基本描述单位,而不是以词语 2. 对概念采取义原标注而不是简单的分类 3. 设计知识数据描述语言 4. 语言外知识库应不依赖特定语言: 双语 5. 严格规定范畴:控制句法和语用
系统架构 (2) 义原分类层级体系: 2227 实体 Entity 154 万物thing (physical, mental, fact) 部分component (part, fitting) 时间time 空间space (direction, location) 属性Attribute 247 事件Event (relation, state; action) 816 属性值AttributeValue 889 次要特征 Secondary feature 121
工程实施 • 控制返工 • 人工为主 • 螺旋式扩充
自我评测 • 开发二次资源 • 概念相关性计算 • 概念相似度计算 • 询问扩展 • 中文信息结构抽取
应用反馈 • 发现问题的改正或补充 • 应用需求