1.36k likes | 1.73k Views
科研文献的信息分析讲座之二 科技文献的可视化分析. 韩冬丽 厦门大学图书馆 生物及医学学科馆员 dlhan@xmu.edu.cn. 科研工作的基础文献信息素养. 文献检索. 协作分享. Google Wave Mendeley zotero mindmanager. 了解图书馆资源 检索基本知识 常用数据库 RSS 订阅. 信息素养. 文献管理. Endnote X4 Mendeley NoteExpress. RefViz Quosa Citespace Publish or Perish. 信息分析. 主要内容. 一、可视化分析
E N D
科研文献的信息分析讲座之二科技文献的可视化分析科研文献的信息分析讲座之二科技文献的可视化分析 韩冬丽 厦门大学图书馆 生物及医学学科馆员 dlhan@xmu.edu.cn
科研工作的基础文献信息素养 文献检索 协作分享 GoogleWave Mendeley zotero mindmanager 了解图书馆资源 检索基本知识 常用数据库 RSS订阅 信息素养 文献管理 EndnoteX4 Mendeley NoteExpress RefViz Quosa Citespace Publish or Perish 信息分析
主要内容 • 一、可视化分析 • 二、 Citespace • 三、 Publish or Perish • 四、文献信息综合分析实例
信息世界的三个基本元素 Data Information Knowledge
1980’s 1990’s 2000’s 2010’s 三个基本可视化的形式 Scientific Visualization Data Visualization Information Visualization Information Visualization Knowledge Visualization mappingknowledgedomains
1、 科学知识图谱(mappingknowledgedomains) • 科学知识图谱是可视化显示知识资源及其关联的一种图形,可以绘制、挖掘、分析和显示知识间的相互关系。有助于了解和预测科学前沿和动态,挖掘开辟新的未知领域。 • 基本原理:分析单位(科学文献、科学家、关键词等)的相似性分析和测度。 • 基本方法:引文分析、共被引分析、聚类分析、词频分析、社会网络分析
常用可视化分析挖掘工具 • 面向科研评价领域 ArnetMiner;CiteSpace;PaperLens ;TDA:Thomson data analysis • 面向全领域 The Network Workbench(NWB);IVC;CNetMiner ;D-Dupe • 面向社会科学领域:UCINET社群网络分析挖掘软件 • 面向功能专题的工具 CFinder ;C-Group ;KrackPlot
2、面向科研领域 1.ArnetMiner:科研合作网的专家检索系统 网址:http://www.arnetminer.org/ • 主要面向研究社会网络的各种特征,提供在线的作者资料检索,是相关领域及合作关系挖掘软件。 • 可以很好地找出领域专家、作者从事的领域、合作团体等。该软件偏重于对单个作者信息的检索和挖掘,对领域专家和科研评价都有比较好的效果。
主题搜索 两人间关系搜索 专家搜索
2. CiteSpace:专门针对科研文献数据设计的可视化分析软件 http://cluster.cis.drexel.edu/cchen/citespace/ • 分析、挖掘和可视科研文献数据的应用软件,通过引文分析和聚类分析寻找研究热点及趋势,并以可视化的方式展示。 3. TDA:Thomson data analysis基于文本信息的分析和可视化工具,提供强大的可视搜索和挖掘功能http://scientific.thomson.com/products/tda/ 功能全面,涉及检索、分析、统计、可视化等各方面的功能。收费软件。
什么是citespace? • Citespace是一款应用于科学文献中识别并显示科学发展新趋势和新动态的软件。 • 利用Citespace寻找某一学科领域的研究进展和当前的研究前沿,及其对应的知识基础。
一些概念 • 研究前沿(Research Fronts): • 研究前沿系指临时形成的某个研究课题及其基础研究问题的概念组合,也是正在兴起或突然涌现的理论趋势和新主题,代表一个研究领域的思想现状。 • 在CiteSpace中,采用Kleinberg的突变检测算法来确定研究前沿中的概念,基本原理是统计相关领域论文的标题、摘要、系索词和文献记录的标识符中词汇频率,根据这些词的词频增长率来确定哪些是研究前沿的热点词汇。根据这些术语在同一篇文章中共同出现的情况进行聚类分析后,可以得到“研究前沿术语的共现网络”。
知识基础(Intellective Base): • 即含有研究前沿术语词汇的文献的引文,实际上它们反映的是研究前沿中的概念在科学文献中的吸收利用知识的情况。对这些引文也可以通过它们同时被其他论文引用的情况进行聚类分析,即同被引聚类分析,最后形成了一组被研究前沿所引用的科学出版物的演进网络,即“知识基础文献的同被引网络”。 • 根据引文半衰期的明显不同,科学文献可分为: • 经典文献(classic articals):持续高被引的文献 • 过渡文献(transient articals):在短暂时间内达到被引峰值的文献 • 科研前沿——过渡文献 • 知识基础——这些过渡文献的引文
CiteSpace研究的三个网络 • “研究前沿术语的共现” • “知识基础文章的同被引” • “研究前沿术语引用知识基础文章”(过渡文献引用经典文献)
Citespace的安装 开机 是否安装JAVA 进入网站:http://cluster.cis.drexel.edu/~cchen/citespace/OR 离线开启 是 否 下载JAVA并安装
Citespace的操作步骤 • 确定关键词和专业术语 • 收集数据 • 提取研究前沿术语 • 时区分割 • 阀值选择 • 精简和合并 • 显示 • 可视检测 • 验证关键点
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 • 运用尽可能广泛的专业术语来确定一个知识领域。这是为了确保接下来的分析能涵盖一个知识领域的全部内容。 • Example:纳米生物技术nanobiotechnolog • 数据源:SCIE • 检索策略: Top ic = ( nanobiotechnolog* ) AND Year Published= all
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 目前citespace数据主要来源于web of science。 1、用步骤1确定的关键词wos上进行检索。
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 1、用步骤1确定的关键词wos上进行检索。
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 1、下载数据,包括题目、摘要和被引文献。每个文献记录代表一篇引文(citing article),在每条记录中的参考文献被称为被引文献(Cited article)
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 1、以文本形式保存
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 1、文件必须以Download开头 Download_xx.txt格式
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 数据的导入 1 4 2 3
引文题目、摘要、系索词(descriptors,标引主题的单元词或词组)和标识符引文题目、摘要、系索词(descriptors,标引主题的单元词或词组)和标识符 名词性术语 突发词 提取研究前沿术语
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 1 2 3 从数据的引文题目、摘要、系索词(descriptors,标引主题的单元词或词组)和标识符中检索N元文法(n-grams)或专业术语,出现频次增长率快速增加的专业术语被确定为研究前沿术语。
提取研究前沿术语 • 软件提供了词频增长检测(burstdetection)算法,该算法主要通过考察词频的时间分布,将那些频次变化率高、频次增长速度快的“突发词”(bstterm)从大量题录的常用词中检测出来,用词频的变动趋势,而不仅仅是词频的高低,来分析科学的前沿领域和发展趋势。 • “突现”词可以展现知识领域的研究前沿和发展趋势。通过生成共引文献网络以及施引文献主题词的共词网络,即得到一个由这两个网络共同构成的共引与共词混合网络(hybridnetworkofcitedartieleandeitingterms)图谱,可以展示出学科知识领域的重要被引文献以及由施引文献主题词所表达的重要研究领域或其前沿趋势。
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点
时间切片 • 采取分治法,时间间隔被分成很多时间段,每个时间段都能形成一个独立的共引网络。再将单独网络按时间序列合并在一起,从合并网络的可视化图谱上显示出了相邻时间段的主要变化,进而找出学科领域的关键文献,探寻出图谱中重要的节点、中心点、关键点等。从而对学科演进的关键路径和学科发展脉络进行清晰的梳理,探测学科知识领域在发展演进过程中的动力因素和背景。
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 节点选择 显示 可视检测 验证关键点 可视检测——节点类型的选择 合著机构 共现词 共现目录 合著作者 共现关键词 合著国别 资助基金 共引文献(DCA) 共引杂志(JCA) 相关文献 共引作者(ACA)
节点类型的选择 • 可以选择单独的节点,生成单一网络 • 也可以选择多个节点,生成混合网络
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 C引文数量、CC共被引频次、CCV共被引系数三个层次设定阀值,其余的由线性内插值决定。
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 聚类显示和时间线显示 共被引文献和关键词混合网络
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 Timeline
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 引文年环代表这篇文章的引文历史。引文年轮的颜色代表相应的引文时间。一个年轮的厚度与某个时间分区内 引文数量成比例。节点中心旁的数字代表整个时间跨度内的被引次数
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 共引文章的合并网络 显示各时间切片的网络 视图选项 显示合并网络
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 ★共引文章的合并网络
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 ★经pathfinder裁剪的个体共引网的合并网络 对各时间切片的个体共被引网络修剪或合并网络修剪 关键路径和最小生成树算法 修剪选项
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 ★经pathfinder裁剪的个体共引网的合并网络
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割 阀值选择 显示 可视检测 验证关键点 在citespace软件应用的基础文献中,软件作者认为,关键点的本质可以通过两条途径来确认:1、将关键点文章的作者视为该领域的专家,咨询;2、对关键点文章的引用和被引用的段落进行内容分析。
三、 Publish or Perish • Publish or Perish简介 • 一款文献检索及分析软件 • 基于Google Scholar获取原始引文信息 • 提供作者影响分析 • 文献及杂志的影响因子分析 • 软件的作者 Anne-Wil Harzing 教授 • 下载地址 http://www.harzing.com/pop.html
Publish or Perish 的界面 查询区 分析结果区
更改查询方式 不同的查询方式 • 主要的查询分析方式 1、Author Impact Analysis 2、Journal Impact Analysis 3、General citation search 4、Multi-query center