670 likes | 1.17k Views
基于 HistCite ™ 编年图的主路径分析及路径依赖的转变. Main-Path Analysis and Path-Dependent Transitions in HistCite™-Based Historiograms 李范 2011.12.02. 论文来源. Diana Lucio-Arias and Loet Leydesdorff , JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 59(12):1948 – 1962, 2008. 作者简介.
E N D
基于HistCite™编年图的主路径分析及路径依赖的转变基于HistCite™编年图的主路径分析及路径依赖的转变 Main-Path Analysis and Path-Dependent Transitions in HistCite™-Based Historiograms 李范 2011.12.02
论文来源 Diana Lucio-Arias and Loet Leydesdorff, JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 59(12):1948–1962, 2008
作者简介 Loet Leydesdorff (洛埃特· 雷蒂斯托夫) 荷兰阿姆斯特丹大学阿姆斯特丹交流研究学院教授,是国际著名科学计量学家,2003年曾获普赖斯奖。他在科技动力学、知识经济、科学计量学以及未来预测等领域有很深的造诣,同时在科学传播领域的研究成绩突出。
摘要 利用HistCite™软件,可能会产生从SCI检出的文献集中最相关的论文,并对其可视化。对科学发展进行的历史重建可按年代顺序描绘成从科学文献中抽取的引文关系网络的发展。本研究的目的是对科学知识进行历史重建,并用社会网络分析和信息理论算法丰富HistCite™输出的结果。使用主路径分析可能标记出某一科学领域发展的结构主干。使用信息的预期信息值可以显示(引文)分布改变程度是否已经达到一定程度可以产生路径依赖性。这为我们提供了一种测度随后的文献间的发展变化情况的方法。这样可以指明研究前沿领域中的历史上早期事件被遗忘和修改的情况。应用HistCite、主路径和路径依赖的转变三种方法处理富勒烯与富勒烯样结构--纳米管的相关文献集。
主要内容 • 前言 • 方法 • 结果 • “引用(施引)”与“被引” • 结论
前言 • Derek de Solla Price (1965)提出使用文献模型作为科学发现和交流过程的一种功能简化。在该模型中,根据科学论文的网络可以呈现科学的动力学、发展和结构(Garfield,1979)。该模型最初用于追踪科学的历史发展(Garfield, Sher, & Torpie, 1964),但也用于研究科学的特性 (Griffith,Small, Stonehill,&Dey, 1974; Small&Griffith, 1974)、科学中有影响的人或事(Stewart, 1983)等等。
前言 • 引用可被看作是一种将较新文献与较早的文献联系起来的单项连接(Garfield, 1973; Small& Griffith, 1974)。科学发展的历史依赖通过引文和参考文献运转。 • 利用文献模型,引用关系被认为是具有认知意义的不同文本间的链接。对其他文献的引用将施引文献与其参考文献置于一个发展的网络之中。
前言 • 连接两篇文献的引证关系揭示了科学发展的两个不同的动态过程:编码和扩散。 • 在本研究的第一部分,一次引用可以被看作是一个编码:一篇施引文献引用一个知识体系,该知识体系就被这次参考(引用)进一步编码(Leydesdorff&Wouters,1999)。在第二部分中,我们将方向反转,引用将被看作一种被引用关系。
前言 • 以前我们从ISI Web of Science用“fullerene*”和“nanotube*”在题名词中分别检出7,696篇和9,672篇论文,对其进行了描述性统计和实证分析(Lucio-Arias&Leydesdorff,2007),本研究是在该研究的基础上进行的。选择富勒烯和纳米管这两个主题是因为两者可被认为是密切相关的科学前沿。富勒烯是1985年发现的一类分子,碳纳米管是1991年发现的具有富勒烯样结构的一类特殊的化合物。换句话说,不是每种富勒烯都可以看作是一种碳纳米管。两个主题的文献在20世纪90年代早期密切相关,但看起来从那之后各自的学术交流系统日益分化(图1)。
前言 • 图1 SCI收录的题目含有“fullerene∗” or “nanotube∗”的论文随时间变化情况
前言 • 本文,通过分析每个文献集中高被引论文的结构,用通过计算获得的编年图来延伸对两个不同专业的认识。使用网络分析和熵计算根据编码和扩散过程分析了引用和被引用的关系。换句话说,本文重点在于方法学方面:通过使用定量方法引文编年图可以进一步延伸吗?
前言 • 迄今为止,我们可以使用的大多数可视化工具使用引文与同被引分析来绘制科学文献的图谱,显示特定时刻的科学研究状态。HistCite可绘制出一系列论文的历史发展轨迹:产生反映意识流的编年图,直到涉及到的最新一篇文献的年代。此外,HistCite的输出结果还可以被社会网络分析的软件所读取。
方法HistCite • 对于ISI Web of Science上检索到的任何确定的文献集,HistCite软件都可产生一个引文索引,画出这些文献的按年代顺序排列的引文网络。根据引用次数确定最重要的文献,可以显示出这些文献的引用关系。因为HistCite显示出高被引论文,可以追踪高被引论文在该文献集内外的引用和被引的情况,有助于科学领域的历史重现。Garfield(2001)将这一过程称之为“引文编年图”。
方法HistCite • 通过HistCite,确定了每个文献集中的30篇高被引论文(见表1和表2)。这些论文间的引证关系可以被输入到其他程序中进一步分析。为了分析主路径,我们使用了Pajek这个用于网络分析和可视化的免费软件。为了分析路径依赖的转变,我们自己编写了程序。通过用定量的测量值描述(修饰、匹配)链接,本研究中所使用的算法增强了HistCite的图像。
方法主路径分析 • 根据中心度计算链接连通度以及画出具有最高中心度的节点形成的路径,可重建主路径。就引文网络而言,这种中心度测度既考虑了一篇文献的被引次数(入度)又考虑了参考文献的数量(出度)。选择哪些具有最高分值的被连接的文献直到最后一篇文献,构建主路径(Batagelj, 2003)。
方法主路径分析 • HistCite的输出结果从施引文献的角度用被引关系“cited by”来表示引用。在前言中,我们将这种编码过程与被引文献中知识主张的扩散过程做了区分。为了描绘随时间变化最有影响论文的主路径,有必要对矩阵进行转置。
方法主路径分析 • 有三种确定引文网络最重要部分的模型: • 节点对投影(映射)计数 • 搜索路径链接计数,用于计数网络中从一个起点发射的所有可能的搜索路径数 • 搜索路径节点对,用于计数沿着路径的所有连通的顶点对 • Pajek中有估计后两个方法的算法 • 本研究中使用了搜索路径链接计数算法,是主路径分析的首选算法,因为考虑了所有的引用关系。
方法路径依赖和重大的转变 除了与其他论文连通,每个科学文本还向网络中增加了新的信息。在属性的分布中包含了这一信息。 其他文本的信息期望值I可以用每个文本中属性的先验和后验分布的Kullback-Leibler距离(Kullback & Leibler,1951)来表示。由此可以测量文本间的相似度。
方法路径依赖和重大的转变 相对熵测量公式: (1) pi =(p1, p2, . . . , pn) 代表参考文献的先验分布(在第一个文本中) qi = (q1, q2, . . . , qn)是后验分布(即在接下来考虑的文本中)。 当使用2作对数log的底时,用少量的信息就可以表示I。I是先验分布被转化到后验分布的信息期望值
方法路径依赖和重大的转变 可以使用Kullback-Leibler距离来分析一个连续事件集合中路径依赖的转变(Frenken & Leydesdorff, 2000; Leydesdorff, 1995, p.99)。如果用之前的(先验)文本来预测后来(后验)文本中参考文献分布的效果非常好,那么新文本达到的消息的预测信息量会是0。从参考文献来看,该论文是之前论文的一个拷贝,内容上没有变化。
方法路径依赖和重大的转变 如果预测的效果有缺陷,可以通过一个中间文本加以改善(图2)。与最初的预测(Σipi)相比,用中间概率分布(Σipi’)对后验概率分布(Σiqi)的预测进行改善,公式如下: = (2)
方法路径依赖和重大的转变 一个文献集中任意3个文献可以进行这种预测的修改。如果I(q:p)>I(q:p’)+ I(p’:p),那么与其直接链接相比,图2中通过修改的路径是传送者和接收者之间交流的更有效的通道。与图2的几何排列相反,与传送者和接收者间的直接信息路径相比,通过中间文献的信息距离值和变短。
方法路径依赖和重大的转变 • 不像Mei & Zhai(2005, p.201)所定义的演进转变,因为是根据不等式的解来确定这些重大的转换,所以不需要一个阈值的规范。从较新文献(后验文本和修订本)含有参考文献分布相似性而较早文献则没有这种相似性的角度来讲,在时间轴上,这些重大转变显示了可以被看作路径依赖或强制性传递点的文献(Callon, 1986) 。研究中的交流系统的分布维度已经发生变化。
方法路径依赖和重大的转变 图2. 三篇文献间的预测和对预测的可能修改
方法路径依赖和重大的转变 通常,信息理论测量值可使分布扩展到更高的维度,例如通过将引用与题名词、作者、机构地址等结合起来。通过增加下标的数量(pi,pij,pijk等),可进一步完善测量方法(Van den Besselaar &Heimeriks, 2006)。然而,本研究中,我们为了显示这些算法如何使我们丰富从HistCite中获得的内容,我们主要关注引用。
方法路径依赖和重大的转变 依赖路径的转变分析提供了一种新的链接含义,这与用社会网络分析的主路径分析不同。主路径分析找到一条具有被连接和连接节点的连续的路径,而重大转变是散在的,并且是在网络演进的时刻,在重大转变中,一篇论文属性的分布与在新论文中的分布不同,这种不同达到一定的程度,修改可以被看作是对第一篇论文所含信息的改写。因此,显示了依赖路径的转变。
方法路径依赖和重大的转变 重大转变以及随之发生的路径依赖与复杂的系统动力学有关并且显示了一个系统沿着由该系统以前状态所决定的路径演进的程度。然而,从事后聪明的观点来看,一个演进的系统也可以被预期是其历史遗忘的部分。因为我们使用的是文献模型而不是行为模型,我们能够强调一种可能对转变中的作者不易察觉的维度。
方法路径依赖和重大的转变 重大的转变在形式上属于Shannon类信息。Shannon类信息没有维度,因此也没有意义。本研究使用文献模型,重大的转变可以用路径依赖的含义来解释。由此确定的文献的意义也许可以通过与专家访谈在未来的研究中得以验证。为了测量每个链接和节点显著性、连通度和演变情况,下面将HistCite提供的引文图与主路径及重要路径转变的结果结合起来。
结果 用HistCite确定和展示了每个文献集中30个高被引文献及其内部关系(图3,图4)。 富勒烯文献集最相关文献分布似乎显示了该领域高被引论文是在该领域起始时所写的(图3)。然而纳米管文献集(图4),其最相关文献分布提示了发表后不久论文就可能成为高被引论文。图3显示了较老文献的相关度呈现纵向等级型的引用模式。尽管HistCite显示对较老文献的引用有累积效应,但图4显示了较新文献有更加水平的分布以及更高的相关度。
结果 图3. HistCite™生成的题目含有“fullerene∗”的7696篇论文中的30篇高被引论文
结果 图4. HistCite™生成的题目含有“nanotube∗”的9,672篇论文中的30篇高被引论文
结果 图5“fullerene∗”文献集30篇高被引论文的主路径
结果 图6 HistCite输出的“fullerene∗”文献集30篇高被引论文的主路径
结果 图7 HistCite输出的“nanotube∗”文献集30篇高被引论文的主路径
结果 图8 纳米管文献集中30篇高被引论文 参考文献分布的路径依赖转变
结果 在图8下部的7篇文献是Bethune在1993年的论文的后验。这些例子提示了一篇中间论文(即Chopra在1995年发表的论文)可作为被引参考文献分布的一个较好的预报器,改写了Bethune被引用的参考文献的分布。进一步观察参考文献的分布揭示了图8中的所有文献都有与1995年Chopra和Bethune 所使用4篇相同的参考文献。然而,在Bethune的文章中,另外9篇参考文献不再被任何后验论文所使用
结果 图9富勒烯文献集中30个高被引论文参考文献分布的重大转变
结果 请注意不是图8中所描绘的每一个重大转变都具有HistCite图的引用关系。事实上,中间文献188是图4中唯一孤立的节点。图9中,用黑虚线描出了富勒烯领域的高被引文献集引证关系中的重大转变。显示出文献48 (1991), 679 (1993), 680 (1993), 807 (1993)是预测的重大修改。
“引用”与“被引” • 通过转置HistCite中获得的引文矩阵,也可以根据“is cited by”(被引)这个关系来分析引用,由此可以反映出引文网络中概念(思想)的扩散情况;这会产生与施引关系(引用)研究不同的结果。 “引用(施引)”关系显示了按照其自身历史科学发展反向的编码过程(Garfield et al., 1964),而每次引用也可被看作是从被引文献到施引文献的意识流(Carley et al., 1993)。被引关系反应了从一篇文献到较新文献的思想的扩散。
“引用”与“被引” • 转置引文矩阵,描绘研究主流作为从一篇文章到另一篇文章的意识流,形成了图10和图11。现在,科学发展的过程与早期文献的扩散及其在随后文献的反响结合在一起的。
结果 图11. 纳米管研究扩散中最具影响的论文
结果 图12 引用纳米管文献集30篇高被引论文的文献分布的重大转变
结论 • HistCite是一种强大的工具,使我们能鉴别任意文献集中的高被引论文,建立一个内部引文矩阵。用于鉴别最相关文献所使用的算法是建立在一段时间的引用次数基础上的。HistCite将最相关的论文及这些论文间的关系展示出来,因此可有助于对科学发展进行历史描述。
结论 主路径算法(Pajek中获得的)确定出在总的引用流中哪些论文是最相关的。主路径算法又优先考虑了具有相当多数量参考文献的高被引论文。主路径上的论文与某一主题发展的主题或方法学转变相关(Carleyetal.,1993)。被主路径显示的文献可以看作对于撰写科学史具有重要意义,因此也对该领域研究者有重要意义。
结论 重大转变从进化(发展)的角度显示了知识发展中路径依赖;重大转变的测定可反映出一个路径依赖的发展变化情况。可以预期,随着时间的变化,文本中属性分布的一些模式会出现,随着新文本不断改写科学领域的历史发展,一些模式会被遗忘。
结论 文献模型可以通过科学文本的引用关系网来简化科学发现和交流的过程。对科学家活动的观察可从个人活动的微观层次转向科学家们集体活动的宏观结构。 HistCite使我们能利用文献模型对任意文献集确定他们的引用关系并展示该文献集的历史。因为HistCite输出的内容提供了一个按年代顺序排列的引文网络,可以用社会网络分析算法进一步描述该文献集的文献特征。
结论 主路径分析使我们可以显示出哪些文献是某些特定主题发展的核心,这些论文或者反映以前获得的概念,或者对该主题发展具有重要的影响。路径依赖分析进一步提供了关于研究前沿的转变动力学。通过在特定的时间产生变异,形成了研究前沿。主路径分析关注随时间发展结构的稳定性。可以预测重大转变和路径依赖出现在当前结构的某些部分,这些部分还不在主路径上。
结论 在今后的研究中,我们将计划测定一个研究主题的自我组织--随时间发展而增加的不确定性降低情况(Leydesdorff&Fritsch, 2006)。本文我们主要对一个按年代顺序链接的已发表的文献集的引文网络进行研究。用这种方法,我们可以查看该网络文献的编码和扩散情况。在随后的论文中,我们将检验引文和题名词的分布如何共同进化,以及在什么情况下这种共同进化会降低不确定性。