420 likes | 1.01k Views
科学知识图谱 - CiteSpace 利用方法. 中科院国科图学科咨询部. 周宁丽. 主要内容. 应用案例分析. 科学知识图谱基本理论. 科学知识图谱基本概念. 科学知识图谱基本 原理. 科学知识图谱研究是一个以科学学为基础涉及应用数学、信息科学及计算机科学等交叉科学领域,是科学学和信息计量学的新发展 基本原理是分析单位(科学文献、科学家、关键词等)的相似性分析及测度。根据不同的方法和技术绘制不同类型的科学知识图谱. 科学学. 科学计量学. 信息科学. 应用数学. 计算机科学. 科学知识图谱. 科学知识图谱研究进展.
E N D
科学知识图谱-CiteSpace 利用方法 中科院国科图学科咨询部 周宁丽
主要内容 应用案例分析
科学知识图谱基本原理 • 科学知识图谱研究是一个以科学学为基础涉及应用数学、信息科学及计算机科学等交叉科学领域,是科学学和信息计量学的新发展 • 基本原理是分析单位(科学文献、科学家、关键词等)的相似性分析及测度。根据不同的方法和技术绘制不同类型的科学知识图谱 科学学 科学计量学 信息科学 应用数学 计算机科学 科学知识图谱
科学知识图谱研究进展 • 传统的科学计量学图谱以简单的二维、三维图形(如:柱形图、线性图、点布图、扇形图、平面图等)表达科学统计结果 文献摘要或关键词纪录比例图 X论文增长趋势线型图
现代科学知识图谱1 1987年,美国基金委发表研究报告《科学计算中的可视化》,开始长期资助科学可视化(scientific visualization)研究 • 1987年,著名计量学家克雷奇默创立“三维构型图谱”three dimensional configuration map 用二、三维图像表征物理现象的科学可视化图交 互性不强,但对非物理现象,如文献数据集、网 络通道模式等信息可视化计算交互性很强 • 之后出现“多维尺度图谱”multi-dimensional scaling map • 20世纪20、30年代英国人类学研究提出“社会网络分析图谱”social networt analysis map • 卡尔提出“自组织映射图谱”self-organizing map 实例:某学术群体知识图谱 实例: 某学科期刊高频关键词共词网络2个知识群
现代科学知识图谱2 • PFNET算法根据经验性数据,对不同概念或实体间联系的相似性或差异程度做出评估,然后引用图论中的基本概念或原理生成特殊的网状模型 1990美国心理学家斯克沃斯兹恩巴克提出“寻径网络图谱”pathfinder network scaling map,PFNET 运用较小生成树法及复杂连接删除算法,删除网络中大部分连接,保留最重要连接,最大限度简化网络 将数据以及数据间关系表达成一个图,图中节点表示数据,线表示数据间关系
现代科学知识图谱3 • 印第安纳大学Ketan K Mane和泊尔纳提出“PNAS主题爆炸图谱” • 用克林伯格跳变算法和共生词分析法和图示技术,研制主要主题和复杂趋势的发现地图 • 网络中各节点代表高频词和爆炸词 • 节点大小代表该词达到最大爆炸水平 • 颜色代表词常用和达到最大爆炸水平的年代
现代科学知识图谱4 • 有维斯等提出“信息地图”information landscape 利用地理信息系统的可视化信息,地理地图的自然组织 框架,构建成隐含大量信息的可视化主题地图 应用案例: 期刊文章的数量与资助基金间的动态关系图谱
科学知识图谱应用展望1 • 随计算机处理能力日益提高,文献信息电子化和专利授权,知识图谱等工具在模拟人类数据分析等方面,可帮助人类进行某些领域的判读、搜索、决策、预测…… 利用专利分析工具形成的专利知识图谱 IN-SPIRE发现工具可整合交互式信息可视化与询问功能 论文的最小生成树图谱 最小生成树导航图谱
科学知识图谱应用展望2 • 明确主要研究领域、专家、机构、出版物等关键词及其之间的内部联系 • 明确主要研究领域之间的知识输入与知识输出 • 科学研究领域的动态变化(如:增长速度、多样化) • 信息生产和传播中的经济因素 • 科学社会网络 • 明确战略的作用和政府项目的应用研究 • 企业、机构、研究的竞争态势与竞争力
科学知识图谱基本方法 利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用与被引用现象进行分析,以便揭示其数量特征和内在规律的一种温馨计量分析方法——邱均平《文献计量学》 • 引文分析理论与方法 Citation Analysis • 共被引分析理论与方法 co-citation Analysis • 多元统计分析方法 • 词频分析方法 • 社会网络分析方法 Social Nework Analysis 把文献的共被引分析作为计量文献之间关系的一种新方法,即当2篇文献共同出现在第3篇文献的参考文献目录中,这2篇文献就成为共引关系。共被引频率定义为这2篇文献一起被引用频次——马沙科娃、斯莫尔(苏联、美国科学记录学家) 对若干相关的随机变量观测值的分析,包括:因子分析、多维尺度分析和聚类分析。这些方法将在关系矩阵上运算。典型例子引文分析,如牙买加某领域文献群组的共被引矩阵引证——埃格赫《信息计量学导论》 是计量学中传统方法。在文学中,不同词汇的使用与出现频率是有一定规律的——齐普夫《齐普夫第一定律》 将社会结构界定为一个网络,网络由成员之间的联系进行连接,社会网络分析更多地聚焦于成员之间的联系而非个体特征,并把共同体视为“个人的共同体”,即视为人们在日常和生活中所建立、维护并应用的个人关系的网络——Wetherell等
科学知识图谱应用—引文分析 1、说明科学知识和情报内容的继承和利用 2、标志科学的发展
科学知识图谱应用—共被引分析 共被引分析理论与方法 1、从分析被引文献类型、语种入手,可研究科学文献体系的特征结构及分布、利用等规律 2、从分析被引文献网络及其变化,可研究学科间关系、联系特征、发展变化现状、发展趋势
科学知识图谱应用—多元统计分析 • 因子分析以较少几个因子描述许多指标或因素间关系,即把较密切的变量归在同一类,每类变量成为一个因子,以这些少量的因子反映原资料中大部分信息。其中的主成分分析与科学计量学分析结合,能确定科研人员群体或国家科学领域的分布状况 因子分析 • 多维尺度分析通过低维(2维)空间反映作者(文献)间的联系,利用平面距离来反映作者(文献)间的相似程度。 • 在科学知识图谱中,作者(文献)的位置显示其相似性,高度相似的聚在一起,形成科学共同体(学科前沿),中间位置的作者(文献)并与其他作者(文献)联系越多,说明其在学科位置越核心,反之则处于外围
科学知识图谱应用—词频分析 • 在任何文章中,词的出现频率都服从一规律:文章中每个词出现词频次统计后按照高频次词在前、低频次词在后的递减顺序排列,并用自然数给这些词标上等级序号,形成f·r=C定量形式(f=频次r=序号C=常数) 词频分析方法 近10年ionic liquid研究词频统计
科学知识图谱应用—社会网络分析 作用1: 通过社会网络分析更多地聚焦于成员之间的联系而非个 体特征,并把共同体视为“个人的共同体”,即视为人们 在日常和生活中所建立、维护并应用的个人关系的网络 社会网络分析方法 作用2 对网络结构如何影响 行为者的行为研究。在个 体网络中研究单个的人; 在全球网络分析中试图 发现整个网络网络中全 体参与者的关系
CiteSpace介绍 • 研究新趋势的识别与跟踪 • 识别与跟踪科研发展新趋势越发引起科研人员重视 • 学科研究新趋势5种识别与跟踪方法: • 1、叙词分段(sotry segmentation) • 2、主题探索(topic detection ) • 3、主题跟踪(topic trcking ) • 4、新闻首次报道(first-story detection ) • 5、叙词链接识别(story-link detection ) • 研究前沿的知识基础 • 在科学文献中(即有引用研究前沿术语的科学文献所形成的演化网络)的引文和共被引轨迹
1、研读引文 2、分析结论 3、咨询专家 CiteSpace 使用 分析结论
CiteSpace 使用——文献检索/数据保存 以此方式文件名保存 检索 download*.txt 选择数据项 保存 添加到标记结果列表
CiteSpace 使用——文献检索/数据格式 CiteSpace用的共被引记录信息 CiteSpace用的书目记录信息 • Web of Scienc • CSSCI(Chinese Social Science Citation Index) • Pubmed • NSF • Derwent • Scopus • arxiv e-Print • CNKI • SDSS(Sloan Digital Sky Survey) A: Authors B: Title, Descriptors, Abstract C: Cited References D: Times Cited E: Year of Publication AUGalea, S Ahern, J Kilpatrick, D Bucuvalas, M co-authorship A TIPsychological sequelae of the September 11 SONEW ENGLAND JOURNAL OF MEDICINE LA English DT Article IDPOSTTRAUMATIC-STRESS-DISORDER; NATIONAL ABBackground: post-traumatic stress disorder co-occurring burst terms B OR GREEN BL, 1990, J APPL SOC PSYCHOL, V20, P1033 HANSON RF, 1995, J CONSULT CLIN PSYCH, V63, P987 HARVEY AG, 1999, J CONSULT CLIN PSYCH, V67, P985 CiteSpace数据来源 author co-citation C KESSLER RC, 1995, ARCH GEN PSYCHIAT, V52, P1048 KILPATRICK DG, 1987, CRIME MAZURE CM, 2000, AM J PSYCHIAT, V157, P896 NORTH CS, 1999, JAMA-J AM MED ASSOC, V282, P755 document co-citation C RESNICK H, 1999, J ANXIETY DISORD, V13, P359 RESNICK HS, 1993, J CONSULT CLIN PSYCH, V61, P984 ROTHBAUM BO, 1992, J TRAUMA STRESS, V5, P455 journal co-citation C
CiteSpace 使用——系统使用/导入数据 点击进入网络版系统
CiteSpace 使用——调谐数据 选择导入数据年代 选择数据切分年代 点击导 入数据 选择聚类词来源 年段内引文数 年段内聚类点 年段内连线数 阈值调谐数 选择聚类词型 选择聚类点类型 阈值调谐,调整聚类节点与研究等关系连线 剪切连线 选择可视图显示形式
CiteSpace 使用——图谱判读 1 最小生成树合并网动画图谱 各色圆环标识为高共被引文献聚类节点,表示学科或研究的热点、前沿领域 颜色及厚度反映研究年代及被引次数 各色连线表示首次共被引年代 节点大小与位置分别表示研究多少和核心层度 突显点 表示新兴学科
CiteSpace 使用——图谱判读 2 显示聚类节点及其标题词的图谱 各节点对应一高引文献 聚类环包括一组相关节点 聚类标题词显示研究前沿主题
CiteSpace 使用——图谱判读 3 研究进展时间图 按年代显示研究前沿 聚类标题词 表示研究热点
CiteSpace 使用——图谱判读 4 研究进展时区图
CiteSpace 使用——分析结论/研读高共引文提取研究热点 对这些高引频(高中心度)文献进行研读,分析得出研究热点
CiteSpace 使用——分析结论/研读高频引文获取发展趋势 通过高共被引文献的高引频文献内容研读,得到学科、研究的发展趋势
CiteSpace 使用——分析结论/依据时区图得到研究进展 点开各时区内各节点文献进行内容研读,得到研究进展态势
应用案例分析步骤 • 明确研究主题背景 • 研究主题文献检索 • CiteSpace图谱分析 • 科研交流与把关 • 研究热点及发展趋势分析与报告
应用案例分析步骤——明确研究主题背景 • 通过与中科院等离子体研究所学科调研了解需求 • 经过专业文献学习了解本专题专业知识 明确: 1、六维力传感器的专业背景 2、研究所需要了解“六维力传感器理论及技术近年研发前沿、热点及发展趋势”
应用案例分析步骤——研究主题文献检索 • 数据库:SCI-WOS、EI、DII等 • 检索式:six-axis( force OR torque OR moment OR Stewart platform ) sensor* AND robot • 文献库及检索式的确定 • 文献检索及数据准备 • 文献检索:在SCI-WOS库查到131条记录 • 数据准备:选择记录并以download*.txt 文件名保存
应用案例分析步骤——CiteSpace图谱分析 数据导入与调谐
应用案例分析步骤——前沿、热点/趋势分析与报告应用案例分析步骤——前沿、热点/趋势分析与报告 经过“pathfinder剪切视图”和“时区图”分析及对其高引文献的分析整理,得到 六维力传感器近年研究方向的重大转移, 热点领域的重点分布,核心技术的主要构成,新发展态势、趋向、领域、理论及技术等分析结论以及综述报告 展开视图中各聚类组节点文献研读 例子 或,对视图左侧列出高引频文献研读
谢 谢! 联系方式:zhounl@mail.las.ac.cn