350 likes | 502 Views
CNKI 知识资源组织与管理平台的构建. 张振海 中国学术期刊光盘版电子杂志社 清华同方知网(北京)技术有限公司. 知识组织管理平台的要素. 知识资源平台 知识处理技术平台 用户利用平台. 知识资源的结构. 核心知识. CKD. 词典 / 知识元 / 百科. 工具书数据库. 一般知识. GKD. 年鉴数据库. 学者总索引. 引文数据库. 期刊评价数据库. 正式出版物. SPD. 期刊数据库. 图书数据库. 报纸数据库. 专利 / 标准. 非出版物. 学位论文. GPD. 会议论文.
E N D
CNKI知识资源组织与管理平台的构建 张振海 中国学术期刊光盘版电子杂志社 清华同方知网(北京)技术有限公司
知识组织管理平台的要素 • 知识资源平台 • 知识处理技术平台 • 用户利用平台
知识资源的结构 核心知识 CKD 词典/知识元/百科 工具书数据库 一般知识 GKD 年鉴数据库 学者总索引 引文数据库 期刊评价数据库 正式出版物 SPD 期刊数据库 图书数据库 报纸数据库 专利/标准 非出版物 学位论文 GPD 会议论文
基于对象关系的资源组织分析--关系就是对空间的划分基于对象关系的资源组织分析--关系就是对空间的划分 分类 • 分类 • 聚类 • 主题词 • 关键词/tag • 著者 • 引用 • 机构 • 基金 • 相似 • 应用 • 媒体 作者 资源 资源 聚类 读者 媒体
知识网络设计 • 知识系统可以看作是一个知识交互的网络系统。知识本身是一个有着自身发展规律的”社会化有机体“。知识与知识之间有着交流的需求。知识要发展、要生长、到成熟稳定都如同一个有机体一样。知识与知识的关系正如人与人之间的关系对人的发展有着重要影响一样,知识关系对于知识系统的发展也是至关重要的。 • 知识关系的设计为“知识网络设计“。 • 核心:关系,有序
引证网络 同 被引 • 参考文献 • 引证文献 • 共引文献 • 与本文引用相同文献的文献,揭示有共同研究背景的相关文献信息。 • 二次参考文献 • 本文参考文献的参考文献 • 二次引证文献 • 本文引证文献的引证文献 • 同被引文献 • 与本文同时被其它文献引用的文献 二次 引证 二次 参考 引证 A 参考 共引 术语的引用 证据的引用 法规依据的引用 实施的引用 数据的引用
著者 • 学术活动 • 合作者 • 同类作者 • 导师 • 同学 • 毕业学校 • 发表文献 • 文献引用/被引 • 媒体评价/反馈 • 父子/夫妻
读者 • 共同阅读者 • 同地区读者 • 同年龄 • 同层次的读者 • 共同兴趣读者 • 阅读排名 • 文献利用排名 • 同组其他人阅读的文献 • 读者--〉作者
聚类 • 主题词 • 关键词 • Tag • Blog • Wiki • 动态聚类
资源要求 • 主题定为准确 • 用户定为清晰 • 资源权威 • 资源要全 • 资源组织关系要丰富(全?),越多越好! • 资源要合法
CNKI 技术平台 自然语言处理NLPE 全文检索引擎FTE 知识挖掘引擎KME KBASE KNS源数据库平台 GRID平台 知识仓库平台 多媒体平台 TPI数字图书馆平台 ETP 引擎 CAJVIEWER 电子加工平台
相关技术 • 概念关系词典 • 相似文献分析技术 • 全文句法检索 • 网格共享技术 • 学术搜索引擎技术 • 知网节出版技术 • 统一导航统一检索技术 • 引文链接识别分析技术 • 蚁群挖掘技术
引文链接接分析技术引文连接是CNKI出版平台基础之一引文链接接分析技术引文连接是CNKI出版平台基础之一 • 引文条目切分、引文元数据项分析 • 引文链接分析 • 链接准确率达到98% • 引证关系分析 • 参考、引证、二次参考、二次引证、共引、同被引。 • 难点:引用数据量非常大。7000万引文条目。速度,准确性,是关键。 • 图书链接(本月发布) • 外文期刊链接(年底发布)
概念关系词典CNKI自然语言智能处理的基础 • 概念之间的潜在知识关系 • 同义,近义关系 • 相关/耦合关系 • 200万条目 • 关系挖掘 • 潜在语义标引技术(LSI)。 • 检索扩展 • 提高查全、查准 • 提高自动分类的准确度 • 新概念识别 • 篇章分析
相似检索技术 • 基于文章内容的相似性分析技术 • 文档向量抽取 • 多维向量索引 • 多维向量检索 • 1百万文档,进行相似检索,1秒内完成 • 突破了关键词单一特征检索的局限 • 以文章为单位来实施检索。以篇章、段落、句法特征为基础,检索的控制深度、内容涉及的广度大幅度提高。 • 应用到个性化服务、信息过滤、信息监控等领域
文档快照技术 • 条件摘要/快照 • 根据用户输入的检索词,对文章进行分析处理,抽取最相关内容。 • 直接反映目标文献与检索提问的相关性,帮助读者快速判断目标文献的价值。 • 直接检索内容本身 • “文档的CT技术” • 机器文摘 • 自动摘要
网格共享技术 • 网格数据共享 • 存储虚拟化技术,实现分布式海量数据统一管理 • 网格数据分发(CDS) • 利用P2P技术,实现基于网格的海量数据更新分发。 • WEB网格镜像技术 • Web与数据库分离,数据库实现虚拟化,原文分布式管理获取。 • 价值 • 提高数据分发速度 • 提高数据库安全性 • 减少用户存储要求 • 提高系统性能
学术搜索引擎技术 • 学术文档排序技术 • 引文 • 参考文献 • 用户使用(下载情况) • 来源影响因子 • 关键词分布(篇名,摘要,小标题,正文,参考文献) • 未来影响分析预测 • 引用预测 • 下载预测
知识网络/知网节整合出版技术 • 引证网络(6种) • 学者网络 • 来源机构网络 • 知识元网络 • 读者推荐 • 相似文献(4种) • 相关媒体 • 分类 • 相关学者
交互信息挖掘技术 • 中心网站一天下载超过100万篇文献。总下载约10亿(一年)。 • 检索习惯、阅读习惯 • 检索词 • 读者推荐文献 • 期刊、会议 • 用户需求 • 关系分析 • 期刊-期刊 • 期刊-博硕,期刊-会议,期刊-报纸,博硕-会议,博硕-报纸,会议-报纸
统一导航统一检索技术 • CNKI源数据库实现统一导航 • 10大专辑 • 168的专题 • 统一元数据表示 • 统一检索 • 统一排序 • 应用价值 • 在不同资源类型间实现同主题资源的汇聚、推荐 • 改善跨库检索的控制,提高查准率。
其他技术 • 个性化服务 • 用户兴趣识别 • 自动内容推送 • 自动聚类技术实用化(ACB) • 检索结果多重排序技术(QMS) • 检索结果多维分组技术(MDG) • 社区技术(SNS)
智能活动文档技术 • 每一本期刊,每一篇文章,每一个知网节都可以单独存盘与收藏。下次可以直接打开期刊,文章,知网节。同时实现与 CNKI数据库关联,动态更新相关信息。 • CAJ文档与知网节关联 • CAJ文档与知识元关联
用户平台要求 • 检索功能齐全 • 使用简单 • 浏览与检索结合 • 人性化设计(个性化?) • 评价机制 • 用户评价 • 技术分析
用户平台-交互挖掘 • 实现资源自组织 • 实现用户的自组织 • 用户反馈
“知识网络”效果 • KNS50升级后 • 期刊库 访问量 增长 60% • 学位论文库 访问量 增长 300% • 会议论文库 访问量 增长 1200% • 报纸数据库 访问量 增长 1500%