1 / 92

大数据环境下的文献分析与利用 叶艳鸣 2013·10

大数据环境下的文献分析与利用 叶艳鸣 2013·10. 一、几点认识. 大数据的海啸 —— 巨量信息. 43,600,000 条结果. 大数据的海啸. 大数据时代的四个特征. 一组数据. Facebook 每天处理的数据量( 2012 年): 处理 27 亿次 Like 按钮点击。 上传 3 亿张图片。 吸收逾 500TB 新数据。. 苹果 App Store 应用商店每天下载 4600 万款应用 新浪微博用户每日发博量超过1亿条 百度每日处理的搜索量超过了 50 亿. 国际数据公司( IDC )的研究结果表明 :

Download Presentation

大数据环境下的文献分析与利用 叶艳鸣 2013·10

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 大数据环境下的文献分析与利用 叶艳鸣 2013·10

  2. 一、几点认识

  3. 大数据的海啸——巨量信息 43,600,000条结果

  4. 大数据的海啸

  5. 大数据时代的四个特征

  6. 一组数据 • Facebook每天处理的数据量(2012年): • 处理27亿次Like按钮点击。 • 上传3亿张图片。 • 吸收逾500TB新数据。 苹果App Store应用商店每天下载4600万款应用 新浪微博用户每日发博量超过1亿条 百度每日处理的搜索量超过了50亿

  7. 国际数据公司(IDC)的研究结果表明: 2008年全球产生的数据量为0.49ZB 2009年的数据量为0.8ZB 2010年增长为1.2ZB 2011年的数量更是高达1.82ZB 相当于全球每人产生200GB以上的数据 而到2012年为止 人类生产的所有印刷材料的数据量是200PB 全人类历史上说过的所有话的数据量大约是5EB IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。

  8. 大数据时代的四个特征

  9. 各种结构化与非结构化数据

  10. 大数据时代的四个特征

  11. 基因组数据 地理空间数据 人口数据 经济运行数据 卫星遥感数据 ……

  12. 大数据时代的四个特征

  13. 气象数据 航天遥测遥控数据 交通流量数据 地震监测数据 ……

  14. 大数据的阶梯处理过程模型 knowledge 模式评估 • 多阶段流水处理模型: 数据挖掘 任务相关数据 选择 数据仓库 数据清理 数据集成 14

  15. 主要的知识发现技术

  16. 基于文献的知识发现原理与技术 共词分析理论与方法 基于相关文献的 知识发现 基 于 文 献 的 知 识 发 现 共引分析理论与方法 基于非相关文献的 知识发现 Swanson理论与方法 基于全文献的 知识发现 文本挖掘理论与方法 资料来源:冷伏海《基于文献的知识发现的应用进展研究》

  17. 大数据的开发路径 Link data Mata data Big data

  18. 知识发现进阶

  19. 二、“大数据”困局的破解之道

  20. 由《易经》想到的: 《易经》道:“易”有三易: 简易 变易 不易

  21. 《易经》之简易 简易:万事万物都是非常简单的,大道至简 《周易·系辞上》: 易有太极,是生两仪,两仪生四象,四象生八卦 现代计算机之“0、1”世界

  22. 《易经》之变易 变易:宇宙万物,时刻变化,人事皆是如此 《周易·系辞上》: 知变化之道者,其知神之所为乎?

  23. 《易经》之不易 不易:变的规律本身是相对不变的,是相对静止和相对稳定的,是可以感知的 《周易·系辞上》: 易无思也,无位也,寂然不动, 感而遂通天下之故

  24. 人类应对“大数据”之路径 岩刻、结绳记事、 文字起源 远古 实体世界 符号化 符号化 复杂 简化

  25. 日出云端与“旦”字的产生 喂…有好“大”一片树林呀 信息的标识:实物→图画→象形文字

  26. 符号的产生: 人与自然区分的分水岭 虚拟世界的起源

  27. 人类应对“大数据”之路径 语言、书籍、通信 知识体系起源 古代 信息世界 知识体系 符号化 复杂 简化

  28. 人类应对“大数据”之路径 书、报、刊、学位论文、 标准、专利…… 目录学起源 近代- 现代 藏书体系 目录体系 符号化 复杂 简化

  29. 目录系统 OPAC系统

  30. 人类应对“大数据”之路径 数字化、网络化 大数据时代来临 新世纪 大数据 Linked Data 符号化 复杂 简化

  31. 《易经》思想给出的 “大数据”困境破解之道

  32. 大数据集 符号 知识体系 文字 论著 语句

  33. 三、基于知识挖掘的文献分析与利用 ——以基因组研究为例

  34. 1、纵观全局的动态调研

  35. 研究概貌 315,264条

  36. 研究概貌

  37. 研究概貌

  38. 2、研究关联性分析(热点追踪)

  39. 主要研究领域(关键词分析)

  40. 研究相关性追踪

  41. 不同时期研究热点变化追踪 1995-1999年 2005-2012年

  42. 3、研究关联性分析(时间序列)

  43. 研究继承性追踪

  44. 研究继承性追踪(引用)

  45. 4、重要成果追踪(竞争情报)

  46. 特定研究者追踪(专家)

  47. 特定研究者追踪(主要成果)

  48. 特定研究者追踪 研究重点与方向 合作团队

  49. 特定研究者追踪

More Related