900 likes | 1.28k Views
文献计量学. 中国中医科学院中医药信息研究所 李 海 燕. 文献计量学( bibliometrics ) 1969 年,美国目录学家 ,Alan Pritchard :将数学和统计学的方法运用于图书及其他交流介质的研究的一门学科。 科学计量学( scientometrics ) 1968 年,前苏联学者提出:关于科学技术进步的计量研究 情报计量学( informetrics ) 1979 年 , 德国, otto nacke. 目前发展的趋势. 从文献计量向情报计量发展
E N D
文献计量学 中国中医科学院中医药信息研究所 李 海 燕
文献计量学(bibliometrics) 1969年,美国目录学家,Alan Pritchard:将数学和统计学的方法运用于图书及其他交流介质的研究的一门学科。 科学计量学(scientometrics) 1968年,前苏联学者提出:关于科学技术进步的计量研究 情报计量学(informetrics) 1979年,德国,otto nacke
目前发展的趋势 • 从文献计量向情报计量发展 -- 情报学定量化研究: 文献计量学及其应用 (46.4%);情报检索; 情报学理论研究;情报经济学与情报成果评价. -- 计量单元:册\本为单位的文献单元->内部知识单元 • 计算机辅助的计量研究和应用 -- 大量\规范数据源 -- 数据处理和分析工具 • 网络信息计量学研究
第一节 文献信息增长规律 一.文献增长的基本估计 增长年率 6%~8% CA 发表100万篇文摘所用年数 1. 32年(1907~1938) 2. 18年 3. 8年 4. 4.75年 5. 3.3年 6. 2年
二、文献激增带来的影响 • 图书馆:经费紧张、人力缺少、馆藏空间不足科学管理 • 科技人员:阅读本专业文献的5%,情报损失量20%-80%有效利用科技情报 • 科研工作;重复、浪费评价科研绩效
三、文献信息的指数增长规律 • 信息量度指标和方法 1 绝对值指标:数量/累积数量(增长规律研究) 2 相对值指标:比例/累积比例 • 普赖斯,1949,哲学汇刊, F(t) 科学文献的指数增长曲线 t
F(t)=aebt (a>0,b>0) a: 统计初始时刻的文献量 b: 持续增长率 • 评价文献增长速度的定量标准:文献量增加一倍所需的时间(倍增期) • 不同学科的文献增长速度是不同的 化学化工: 8-9年 原子能与环境科学:2-3年
从统计实例来看,科学文献指数增长率正确反映了文献的实际增长情况.从统计实例来看,科学文献指数增长率正确反映了文献的实际增长情况. 1952-1982 世界图书,倍增率20年 1907-1977 世界化学,倍增率10年
局限性 --科学文献并不总是按指数函数增长,还与学科和统计时间有关。学科范围越广泛,符合指数规律的时间越长;开始统计的时间越晚,增长率值越大。 -- 指数增长曲线已有平缓趋势 -- 指数规律不能预测文献的未来增长趋势
反映历史,不能预测未来 • 对科学文献增长的机理研究不够 • 没有考虑停刊因素 • 没有考虑老化因素
四、文献信息的逻辑增长规律 F(t) 增长率变小,延缓增长,并趋于一个极限值 K/2 A t
弗来明等,1965-1975年间煤的气化法 • 肥大细胞研究 • 学科诞生和发展期:指数 学科相对成熟期或突破的前期;逻辑 • 描述过去,预测未来,增长规律实际上是会受到许多因素影响和制约的,真正的预测需结合系统论。
1.逻辑增长模型 原指生物学中的“生长曲线”,描述生物界一 类典型的繁殖过程,即开始阶段按指数规律 增长得很快,但随着时间的推移,繁殖速度 减慢,并逐渐趋于不增。一般称为饱和的指 数增长曲线。 2.逻辑曲线的机理分析 逻辑模型与指数模型的关系 dN / dt = bN(k – N) 与 dN / dt = bN
普赖斯指出:科学发展的所有明显的指数型终将成为逻辑型模型。普赖斯指出:科学发展的所有明显的指数型终将成为逻辑型模型。 • 指数型是逻辑型的发展的初始阶段,而逻辑型是指数型最终的发展趋势。 • 逻辑型曲线的局限性是导致科学发展的极限论,增长率为零。 3.普赖斯—纳里莫夫循环曲线
4.科学知识增长规律总结 • 科学知识按指数增长的规律 恩格斯指出:科学按加速度发展,即按指数函数增长规律性发展。(图书文献的增长/ 科学知识的增长/ 科学指标的翻番时间) • 智力潜热现象, 科学技术发展的波浪式前进,永无止境。 • 科技文献的阶跃型增长曲线
五、文献信息增长的其他数学模型 • 线性增长模型 • 分级滑动指数模型 • 超越函数模型 • 舍-布增长模型
六、文献信息增长机理的分析 • 科研经费和科技人员的激增使文献量增长 普赖斯 n2 n n的平方根 • 专业范围的扩大化和细分化 • 学科之间相互渗透 • 科学技术的国际化 • 研究的合作化和集体化 • 研究周期缩短,产生成果和转化速度加快 • 通讯、出版技术的改进以及情报工作的加强(数据库)
七、文献信息增长规律的应用 • 在科学学和科技史研究中的应用 模拟科学技术发展过程,探讨规律,普赖斯,在文献指数增长规律基础上得出科学技术呈指数规律增长的结论. • 在文献信息管理中的应用 图书馆经费的预算/资料收集的原则/馆藏增加的策略/存储空间扩大 • 在情报研究中的应用 专利文献是科技发展的最敏感指标
为技术引进提供决策依据 半导体扩散 技术专利数 日本 世界其他国家 1954 1958 1962 1966 1970 1950
第二节 科技文献的老化规律 一、文献老化现象 1. 科技文献老化的概念 科技文献随时间的推移,使用频次逐渐减少的现象 美国,Gosnell,1944《大学图书馆藏书的老化率》: 在知识的累积过程中,一些知识及其载体会逐渐失 去其原有价值。 普赖斯:被引用数据,一篇文献平均寿命十年,对 老化进行了定量研究
2. 情报老化与文献老化的区别 情报老化:情报的有效价值随时间流逝而减少的现象,情报可能在相当长的时间不会老化,而文献老化是针对用户而言,因用户的使用习惯而造成。
3. 影响文献老化的因素 • 文献内容的变化:过时、错误、被普及、被替代 • 文献增长的影响:一些文献被引用日益减少并非完全由于文献老化,而是由于文献的增长。 • 学科性质差异:基础性学科、以客观事实和经验数据为主的学科(地质、植物)、应用性学科 • 学科发展阶段:初始和发展阶段、成熟阶段 • 用户需求:科技期刊、学位论文、科技报告、科技图书
二.文献老化过程的定量研究 1. 文献老化过程的定量研究方法 • 文献流通统计数据分析法 kent,6所科学图书馆,1968-1975,7年 1)文献借阅次数统计 2)文献流通量统计(如复印量) • 引文分析法(最多、最有效的方法) 1)引用文献分析法(同时法) 2)被引文献分析法(历时法)
引文分析法:给定时间间隔,专业文献,参考文献出版年代的相对数量分布引文分析法:给定时间间隔,专业文献,参考文献出版年代的相对数量分布 1988年,生物医学老化规律 引文量 1988 1980 1970 1960 1950 1940 1930
被引文献分析法:某专业一定量文献,引用这些文献的文献量按时间的分布研究。被引文献分析法:某专业一定量文献,引用这些文献的文献量按时间的分布研究。 国际物理期刊老化研究 1960年,40种刊,2500篇文献,SCI 引文量 1960 1965 1970 1975 1980 1985 1990
2.模拟老化过程的数学模型 1)负指数模型 布鲁克斯的基本假设:科技文献的被引用数量随时间推移的衰减过程近似服从负指数模型,当文献达到被引用峰值后,便开始经历文献老化的衰减过程,于是就可以得到拟合度很高的负指数曲线 • 负指数模型的形式 C (t ) = Co e -bt = K e -bt • 观察SCI的引用数据表 • 概率密度函数 f ( x) = be -bx • 累计分布函数 F (t ) = 1 -- e -bt • 老化系数 a = e -b
2)伯顿-开普勒公式 y = 1-- ( a/e x + b/ e 2x ) ( a + b = 1 ) 3)莫德列夫修正式 y = 1-- (a / e x-0.1 + b / e 2x-0.2 ) (a + b = 1) 被引文献累积百分比 出版年限
三.老化速度的测度指标 1. 半衰期和中值引文年龄 • 贝尔纳定义适用于历时法:所发表的文献有一半不被引用的时间;评价专业、期刊、某篇文献的老化 • 伯顿—开普勒定义适用于同时法(中值引文年龄):参考文献中的一半所在发表时间段,评价某一学科或专业的文献老化趋势 • 2008年,200篇,3000篇参考文献,1985-2005年,其中1500篇是1985-1995年,半衰期为10年
SCI 中的引用半衰期和被引半衰期定义 2. 计算方法 • 作图法、公式法
3.普赖斯指数 • 定义的表述 P=出版年限不超过5年的被引文献数量*100% 被引文献总数量 可以用于评价期刊,研究所的论文 • 普赖斯指数与中值引文年龄的区别 老化速度快,中值引文年龄短,P大, 4. 老化系数 • a = e -b • 测度文献老化速率的重要参数 其值大则老化慢,其值小则老化快
四.文献老化规律的应用 • 在文献管理中的应用 1 指导剔旧工作,优化馆藏 2 提高文献服务的质量和效率 • 在科学学和科技史研究中的应用 根据文献老化曲线和量度数据,可以判断学科的性质以及所处的发展阶段,对学科的发展方向和发展趋势作预测。
第三节 布拉德福文献分散定律 一.布拉德福及其文献分散定律 1. S.C.布拉德福(1878—1948) 英国 著名的文献学家和化学家 2 .布拉德福设想:专业文献集中(1/3),分散于相关边缘期刊(1/3)和其他(1/3)
3. 期刊累计载文量大致相等的三个区域,这三个区域的期刊数量之比1:5:52
4.布拉德福关于文献分散现象的思考 通过期刊相关论文载文率的高低进行区域 划分,这些区域所含期刊的数目随着载文 率的下降而增多,呈现反比例关系。以此 可以定量测定学科间的联系程度和描述相 关论文在登载其期刊中的数量分布。
5. 布拉德福定律的基本原理 • 布拉德福定律的基本原理 • 统计数据的处理,半对数坐标系 区域表示法和图形表示法 n1 : n2 : n3 = 1 : a : a2 n1 : ( n1 + n2 ) : ( n1 + n2 + n3 ) = 1 : A : A2 • 两种表示法的差异
二.布拉德福定律的修正与发展 1. 维克利的修正式 n1 : ( n1 + n2 ) : (n1 + n2 + n3 ) : ……… = 1 : b : b2 ………. 2. 莱姆库勒对区域法的发展 F ( x ) = ln (1 + Bx ) / ln ( 1 + B ) 公式形式简单,单参数,便于应用。在确定了参数B以后,只要知道论文的覆盖比例就可以确定期刊的最低数量。
3. 布鲁克斯对图形法的发展 a n B ( 1 < n < C ) R ( n ) = { k ln n / s ( C < n < N ) 参数讨论: 1)当期刊总数N充分大时,N = K ,N 等于图形直线部分的斜率。 2)S为重要参数,标度学科专业范围大小的指标。
3)其他参数A = R(1) ,表示等级为1的期刊的载文量 C 为核心期刊数B 为参数,等于曲线部分的曲线 K 为参数,等于直线部分的斜率三.布拉德福定律的应用 1. 确定核心期刊 2. 制定文献采购策略 3. 评价检索工作 4. 根据流通数据确定采藏策略
第四节 齐普夫词频—等级分布定律 一.齐普夫与词频分布研究 • 齐普夫的研究工作 美国哈佛大学教授,语言学家 • 词频分布的概念 不同词汇的出现频次具有一定的统计规律性 • 词频分布的早期研究 编辑频率词典,频率与等级序号之间反比关系 • 法国艾斯杜和美国康登的工作
二.齐普夫定律的基本原理 1. 齐普夫第一定律 f r = C r -1 其中:f r = n r / N 为词汇出现的频率, r为词汇的等级序号。词频与等级序号间的一次反比律 2. 最省力法则 人类行为与最省力法则—人类生态学引论。 任何人在做任何事时, 都希望付出的代价 最小,而获得的收获最大。 3. 用最省力法则解释齐普夫定律 齐普夫提出“单一化的力”和“多样化的力” 作用概念。
蒙代尔布罗从信息理论出发,建立 广义齐普夫定律。 4. 齐普夫定律基本原理 定律的文字与图象描述 文字描述:f r r = C 图象描述:直角坐标系下为双曲线 双对数坐标系下为直线 5. 齐普夫定律的局限性 对高频词和低频词的解释存在不足
三.齐普夫定律的理论发展 主要研究方向:关于参数的讨论;关于低频词 分 布的推导,建立齐普夫第二定律。 1. 朱斯修正式 f r . r B = C 2. 蒙代尔布罗修正式 f r ( r + m ) B = C 参数M主要功能是对高频词的修正。 参数B用以描述低频词。 M = 0 为朱斯修正式,B = 1为齐普夫定律。
3. 布什低频词词频定律 确定具有相同词频等级的方法 (1)平均等级法 (2)随机等级法 (3)最大等级法 齐普夫第二定律 尽管文章的单词量各不相同,但是比值 I1/D 却十分接近。布什据此导出齐普夫第二定律,也称布什低频词词频定律。
四.齐普夫定律的应用 1. 词表编制 2. 利用齐普夫定律,解决词汇控制,词表 规模确定,选词标准等问题。 3. 文献标引控制 齐普夫定律主要应用于统计标引法。 确定有效词的词频值。 从而可通过计算机确定有效词。 4. 情报检索的文献组织 倒排档中,入档词出现的频次 Pr =A/r (A 近 似为0.1), 可确定倒排档大小。
在科学评价中的应用 1.加拿大蒙特利尔大学,纳米科研与发展报告 79个关键词检索,8年中,50个高频词,25484篇,按国别分类,根据词频高低排序,分析各国研究优势与劣势。 2.中草药文献,10年,MeSH词频排序,43个高频词,共现情况分析词间关联关系,中草药的研究热点。
第五节 文献信息作者分布规律-洛特卡定律 • 三大基本定律之一(高产作者、核心期刊、高频词) • 1926年,《the frequency distribution of scientific productivity》,作者数与论文的平方反比数量关系 • 科学生产率:在给定时间内,个体科学工作者所发表的论文数量。 • 揭示科学生产率以及作者与论文之间的数量关系。
1. 洛特卡的研究: • 物理(物理学史一览表)\化学(CA) • 没有考虑科学合作者在文献分布规律中的作用. 2.洛特卡定律 • lnfx = -2lnx + lnC • fx = C / X2 • 在某一时间内,写了X篇论文的作者数占作者总数的百分比fx与其撰写的论文数X的平方成反比。