690 likes | 812 Views
基于知识挖掘的 CNKI 知识元 产品介绍. 经济社会发展统计数据库、 工具书、学术图片等演示介绍. 课件类别:资源 课件来源: 同方知网(北京)技术有限公司 联系方式: 新浪 / 腾讯微博 : @CNKI 知者汇 制作日期 : 2012-10-30. 基于知识挖掘的 CNKI 知识元产品介绍 经济社会发展统计数据库、 工具书、学术图片等演示介绍. 在科研、学科发展过程中, 都需要何种类型知识元? 分散在不同的渠道中,难以获取 粒度粗细不一,数据清洗任务量大. 翻译. 学术趋势. 7. 1. 学术概念. 6. 事实资料. 2. 知识元面向.
E N D
基于知识挖掘的CNKI知识元产品介绍 经济社会发展统计数据库、 工具书、学术图片等演示介绍
课件类别:资源 课件来源:同方知网(北京)技术有限公司 联系方式:新浪/ 腾讯微博:@CNKI知者汇 制作日期:2012-10-30
基于知识挖掘的CNKI知识元产品介绍 经济社会发展统计数据库、 工具书、学术图片等演示介绍
在科研、学科发展过程中, 都需要何种类型知识元? 分散在不同的渠道中,难以获取 粒度粗细不一,数据清洗任务量大 翻译 学术趋势 7 1 学术概念 6 事实资料 2 知识元面向 5 学术图片 3 其他 4 数据数值
知识元服务的价值及意义 • 科研学科发展所必须的海量数据分散在不同渠道中,查找获取困难。 • 依靠人力从众多数据中提取权威有价值知识元信息困难(概念、数值、图片),对于研究人员而言耗时费力。 • 跨学科、跨领域综合性命题!如何快速解决查找及分析的疑惑? 解决方案:多维度知识元
目录 数值知识元 中国经济社会发展统计数据库 为实证研究提供数据基础 概念知识元 工具书网络出版总库 为科研、课题提供权威解释及扩充知识点 图片知识元 学术图片知识库 丰富科研素材,拓宽研究维度 更多…… 学术趋势、翻译、表格……
数值知识元 实证研究需要数据支持,权威可靠的数据如何查找? • 纸本统计年鉴中搜索 • 查找不易、口径不一、加工困难、耗费时间/人力 • 互联网搜索 • 数据断层过多,且质量参差不齐,难以信任 • 电子数据库 • 个性化数据制作无法满足 实证研究数据难以获取,全方位的嵌入式图书馆服务需要提供数值知识元,为科研、学科发展提供详实可靠的数值参考。 利用中国经济社会发展统计数据库! 数值知识元
案例:对比北京、上海商品房销量及价格 • 21世纪初在房地产价格不断攀升的大环境下,市场成交额、商品房均价产生了何种波动? • 选取调查地区北京、上海 • 调研指标:商品平均销售价格、商品房销售面积。 • 时间范围:2000-2010年 • 需求分析:时间、地区、指标范围明确。 • 难点:调研所需数据量非常大,分部在不同年鉴中,需要查找222本、52种年鉴,从中找出具有连贯性的地区统计数据。 数值知识元
设置年份 参数 选择指标参数 选择地区参数 Company Logo
价值:实现所需数据完整、快速采集 自动生成对应区域和指标的数据分析报表
价值:便于核查来源,保证数据研究过程的正确、权威、科学价值:便于核查来源,保证数据研究过程的正确、权威、科学 通过口径系统匹配统一实现数据清洗 报表每一个数字均提供权威来源;数据序列的统计口径都已统一处理! 数值知识元
价值:以满足特定化(限定载体)的研究需求,检索结果可全部出自同一来源。价值:以满足特定化(限定载体)的研究需求,检索结果可全部出自同一来源。 更加多样元数据筛选途径 可以选择分析的数据来源 数值知识元
多样化图形辅助分析功能: 价值:时间序列分析和地区比较分析。 直观呈现 数值知识元
价值:满足学者个性化的数据分析需求 自定义指标分析 数值知识元
价值:满足学者个性化的数据分析需求 自定义指标分析 开放式数值知识元加工模式,满足用户更加个性化的需求。真正实现细粒度、个性化、可定制的知识服务。
最新季月度数据 加快数值元数据的时效性,解决年鉴数据滞后性的问题
资源介绍 自有指标 统计资料 统计指标 • 1.截止到2012年8月中旬,共收录中央直属出版社出版的权威统计年鉴(资料)共826种,各年鉴文献收录完整,共5572册,共160多万个指标,占中国大陆境内全部公开出版统计年鉴种类的99%;此外,还收录了各类调查资料、(经济、人口、农业)普查资料等统计资料,共计435种。全部统计年鉴(资料)卷册收录完整率达99%。 • 2.以统计指标(数据)形式收录出版政府部门和各产业组织发布的年鉴/报告数据,共约45万个统计指标,覆盖98种854册部门(产业)权威年鉴/报告。 • 3.及时收录出版国家(省、市)统计局、中国人民银行、海关总署、商务部等发布的经济发展最新运行数据,共约17200个指标。 • 4.联合国各专业组织、世界银行、国际货币基金组织、OECD等国际组织的年度数据约4500个。
区域经济社会发展统计数据库 地区展示门户及科研信息获取渠道 将分散数值知识元聚合起来,消散信息孤岛情况,有效组织数值知识元价值,打造地区展示门户
数值知识元 小结 • 权威数值知识元 • 与国家统计局出版社正式授权合作,保证了数值知识元的权威性、全面性、连续性;全面、系统采集统计部门最新季月度数据,解决年鉴数据本身的滞后性问题。 • 数值元数据直接定位 • 深度数据加工,直接抽取和挖掘指标,各统计年鉴自创刊以来所有图表均加工为Excel格式。 • 个性化定制、统一清洗。 • 强大的平台,直接查找到指标信息,并可查看数据来源,统一统计口径,自有数据与网络数据整合。 • 知识元之间互相关联,形成集聚效应 • 按地域整合数值知识元,面向各经济区域提供区域发展数据研究中心,同时也是普通读者的国情/省情/市情/县情数据获取平台。
目录 数值知识元 中国经济社会发展统计数据库 为实证研究提供数据基础 概念知识元 工具书网络出版总库 为科研、课题提供权威解释及扩充知识点 图片知识元 学术图片知识库 丰富科研素材,拓宽研究维度 更多…… 学术趋势、翻译、表格……
此乃何物? 互联网百科有较强的娱乐性,学术专指度相比较弱
概念知识元 为什么要查找概念知识元? 学术研究是多种概念的累加组合: 研究过程中遇到生僻字、词如何查找? 不同学科研究需查找该学科对应释义 图书馆服务在嵌入学科发展、科研支持方面需要了解不同学科的特定知识,在自身掌握该学科基本概念、信息的基础上有效的为用户提供指引。
概念知识元 • 在科研过程中概念获取渠道分析: • 互联网检索:信息权威性不足 • 纸本工具书:受载体类型限制,查找不便 • 一般数据库检索:打断研究思路,生僻字词难以查找,无法实现个性化定制 • 借鉴工具书网络出版总库! 概念知识元
功能演示 提供多种类型海量工具书资源支持,满足科研不同需求。 概念知识元
查人名:达芬奇 查找不同类型、不同学科概念知识元
那些困惑我的地名们 概念知识元
输入助手 • 北不识盱眙,南不识盩厔 提供多种通配符,便捷性输入助手
通配符(?*)检索 妙用通配符“*”,输入 “*书院”立刻得到 全部结果! 输入“天?地?”立刻 得到“天和地”的成语, 再难的成语接龙也不怕!
同音提示 检索“否”,提示“否” 的同音字和相关词组。
嵌入功能:默认/划词连接 概念知识元
无缝连接到工具书中查找学习时相关词汇 概念知识元
划词链接:选取词汇双击进入工具书查找 概念知识元
概念知识元 小结 • 权威概念知识元 • 全球最大规模,收录最全(200多家出版社、5000余册工具书、1500万条目、80万张图片等)唯一、彻底解决了版权,65%工具书取得了独家授权 • 多种形式分类组织形式 • 按学科、按图书类型 • 便捷输入助手功能 • 通配符、输入助手、同音提示 • 嵌入式学科服务 • 无缝连接阅读器;定制到馆,让概念生动起来! 概念知识元
目录 数值知识元 中国经济社会发展统计数据库 为实证研究提供数据基础 概念知识元 工具书网络出版总库 为科研、课题提供权威解释及扩充知识点 图片知识元 学术图片知识库 丰富科研素材,拓宽研究维度 更多…… 学术趋势、翻译、表格……
我们什么时候需要图像? • 图片可直观、快速的呈现文本无法体现的信息内容,信息量大,学习效率高,可形象化解读逻辑关系,具体化抽象概念 • 教学、学习、汇报 • 文字表述无法透彻理解时 • 画图需要找图参考时 • 通过图片快速发现获取文献的重要知识点 • 某些特殊学科:医学、生物学、艺术类…… • 娱乐…… 具有其他知识元产品无法替代的价值! 数值知识元
案例1:教学中讲述压水堆核电站工作原理 • 压水堆核电站的原理流程解释如下: • 在核电站中,反应堆的作用是进行核裂变,将核能转化为热能。水作为冷却剂在反应堆中吸收核裂变产生的热能,成为高温高压的水,然后沿管道进入蒸汽发生器的U形管内,将热量传给U形管外侧的汽轮机工质(水),使其变为饱和蒸汽;被冷却后的冷却剂再由主泵打回到反应堆内重新加热,如此循环往复,形成一个封闭的吸热和放热的循环过程,这个循环回路称为一回路,也称核蒸汽供应系统。由于一回路的水在正常稳态运行时绝对压力维持在15·5MPa,根据负荷变化,平均温度在291·4~310·0℃之间,所以该堆型称之为压水堆。一回路的主要设备是核反应堆、蒸汽发生器、水泵等,通常把一回路及其辅助系统和厂房统称为核岛(NI)。 • 如此长的平铺直叙,无法获得直观流程概念 数值知识元
如果通过图像来表述…… 通过图片可直接获取详实流程信息,直观、快速掌握概念知识,提高课堂活跃性! 一张256*256的黑白图片64k ,人类理解大约几秒钟,同样大小的文字信息人类阅读大约需要2个小时。
案例2:进行有关昆虫围食膜研究课题 • 围食膜 peritrophic membrane • 昆虫中肠内的单层或多层纤维质网状薄膜。大多由肠壁细胞分泌形成,少数由中肠前端的一群特殊细胞分泌挤压而成。含有蛋白质和几丁质。其功能是包围食物,避免损伤肠壁细胞,并具有选择性渗透作用,可使消化酶和消化产物得以透过。 • 农学领域中,病虫害防治是研究重要课题,其中围食膜研究是重要突破口。文字的解释无法详细了解其组织构成,尤其对生物领域,微观结构的图片查阅十分必要,查找相关图片是研究首要基础 • 上哪里去查找类似图片? 数值知识元
如果通过大众搜索引擎进行查找…… 网络检索相关图片无序信息过多,无法查得所需图片,学术图片匮乏
相比网络图片,若能获取专业的学术资料中的图片,可更加符合科研的需求相比网络图片,若能获取专业的学术资料中的图片,可更加符合科研的需求 数值知识元
案例3:城市用地规划项目汇报 • 背景:向领导汇报城市用地不同时期进展情况,用文字表述?难以说清! • 图表性的解释更加有说明性,可有效提高汇报效果。且要保障规划设计的准确权威性。 • 权威学术图片如何寻找?求助于传统数据库检索规划图? 直接在数据库中查找规划图,结果少,无法满足需求
在期刊、会议、学位论文中含有非常多的学术性图片,查找不易,若能将其中图片抽取出形成数据库,在汇报时可直接定位,节省时间在期刊、会议、学位论文中含有非常多的学术性图片,查找不易,若能将其中图片抽取出形成数据库,在汇报时可直接定位,节省时间
学术图片知识元应用现状无法满足需求 • 网络图片数量众多,质量参差不齐 • 缺乏成学科体系的学术图片资料库 • 传统的多媒体检索对图形揭示不足 • 单纯的图片无法诠释其科研背景 • 图与图之间分散,形成信息孤岛 • 传统多媒体检索技术无法满足图片使用需求! 数值知识元
解决方案—学术图片知识库 • 通过对上述资源的分析,挑选其中最有价值的学术类图片整合成规范的学术图片知识库,现有图片超过1500万张,预计2012之后每年新增超过100万张。 • CNKI学术图片知识库是我国第一个学术类图片的知识库产品,采用同方知网自主研发的智能挖掘技术,规范化编辑整理,提供相似图表的检索、对比和分析功能等知识发现功能,将大大提高学术文献知识传播和应用效果。
功能及价值分析 千万数量级的深度规范标引学术图片数据库 • 专业的检索、分析、对比等知识发现功能 • 特有的学术图片分类体系 • 丰富的图片知网节链接信息 • 基于图像视觉特征的以图搜图功能 数值知识元
功能价值1:专业的检索、分析、对比功能 多种图片检索方式,快速查找所需学术图片,可实现图片对比,打破图片知识元的信息孤岛