320 likes | 422 Views
An index to quantify an individual’s scientific research output. 作者: J.E. Hirsch 发表时间: 2005. 5. 2. 3. 4. 1. H 指数的实例. H 指数与其他指标相比的优点. H 指数的数学原理. H 指数的影响因素. H 指数的背景、概念. Contents. 目的:. 定量评价科学家个人研究成果的指标. 概念:.
E N D
An index to quantify an individual’s scientific research output 作者:J.E. Hirsch 发表时间:2005
5 2 3 4 1 H指数的实例 H指数与其他指标相比的优点 H指数的数学原理 H指数的影响因素 H指数的背景、概念 Contents
目的: • 定量评价科学家个人研究成果的指标
概念: 如果一位科学家发表的Np篇论文中有h篇论文被引次数至少为h,其他(Np - h)篇论文中每一篇的被引次数都小于等于h,那么这位科学家的h指数就是h。
例:E.Witten h=110 篇数 被引次数 1 150 2 145 . . h2=12,100 . . <= Nc,tot 110 >110 111 <=110 a:3~5
优点: H指数: • 简单易得;将Thomson ISI Web of Science数据库中的文章按被引频次排序即可 • 公式1粗略地估计了总被引频次 • h指数近似相等,发表文章总数或被引总频次相差很大时,两名科学家总体科研影响力旗鼓相当 • 发表文章总数或被引总频次相等, h指数高的科研人员可能科研成就更大
数学原理1: • 对于某个指定的科学家而言,h指数与时间存在线性关系。 • 模型:每年发表p篇文章,每篇文章每年新增被引次数为c次,那么n+1年后的总被引频次为:
数学原理1: cp 2cp cp 3cp 2cp cp . . . ncp (n-1)cp …… 2cp cp
数学原理1: • 假设第y年发表的所有文章对h指数有贡献,则 • 如果一位科学家发表的Np篇论文中有h篇论文被引次数至少为h,其他(Np - h)篇论文中每一篇的被引次数都小于等于h。
数学原理1: • y=h/p 代入公式3a中,得: • n=h(1+c/p) / c,代入公式2,得:
数学原理1: • 系数a的大小与c和p有关 • h与n存在线性关系:h~mn 【6】 • 适用于那些从事科研事业时以稳定的速率发表相同质量的文章的科学家,当然,m值也会因人不同而有较大的差。根据公式4,在这个简单的线性模型中,m与c和p有关。
数学原理1: • 线性模型中,a的最小值为2,此时c=p • c>p或c<p时,a值均增大。 • 当c>p时,高被引论文(即被引频次大于h的h篇论文)对被引总频次的贡献较大; • 当c<p时,被引频次较低的论文(即被引频次小于h的Np -h篇论文)对被引总频次的贡献较大 • a=4时,c/p=5.83(a=4时,c/p的另一个值是0.17,与事实不符)。
数学原理1: • Nc(y)第y篇文章的引用次数(将论文按被引频次从高到低排列),N0是被引频次最高的论文的引文数(上述例子中N0=cn),则: 当Nc(ym)=0时,
数学原理1: • 当a=2时,N0 = ym = 2h。 • 当a增大时,【9a】高被引论文对被引总频次的贡献较大; 【9b】被引频次较低的论文(对被引总频次的贡献较大
数学原理2: • 现实情况中,Nc(y)与y不一定是线性关系。通常情况下假设a=2为下限,因为a值再变小时,就要求y的大部分区域的二阶导数 为负,这是不现实的。Nc(y)下的曲线面积即为被引总次数,曲线经过的Nc(h)点即为h。
数学原理2: • 指数模型
数学原理2: • α由公式13得出: 论文总数(至少被引1次),N (ym)=1
数学原理2: • 每一个科学家的分布都可以通过选择最恰当的α和β建立模型。 • 例如,当β= 1时,如果a=3,α=0.661,N0=4.54h,ym = h[1+0.66lnh]。当a=4,α=0.4644,N0=8.61h,ym = h[1+0.46lnh]。
数学原理2: • 当β= 0.5时,a取最小值3.7;此时,N0=7.4h,ym = h[1+0.5lnh]2。 • a值增大,N0增大,ym减小。 • 当β= 2/3时,a的最小值为3.24,此时N0=4.5h, ym = h[1+0.66lnh]3/2。
数学原理3: • 当研究者论文产出量降低或停止发表论文时,公式6中h和n的线性关系当然会被打破。但中间存在着一定的时间间隔(nlag); • 假设研究者nstop年之后停止发表论文,h会在一段时间内以相同的速率稳定增长一段时间; • 现实情况下,随着n增大,h逐渐趋于平稳; • 发表论文年限较长的科学家, nlag较大
影响因素: • 现实情况中并不是所有的论文对h指数有影响 • h指数不会永远随着时间的增长而增长 某段时间内被引h次的某篇或某几篇论文可能退出h篇论文的序列,因为这些论文有可能被其他一些被引速度较快的论文所取代。 “睡美人”
影响因素: • 公式6及对多位物理学家的观察: • m ≈ 1 时(科学活动20年后h指数为20),是一个成功的科学家的特征 • m ≈ 2 时(科学活动20年后h指数为40),是一个杰出的科学家的特征,可能只能在一流的大学或重点的研究实验室中发现。 • m ≈ 3时(科学活动20年后h指数为60,或30年后h指数为90),是一个真正独一无二的科学家
影响因素: • 重点的科研性大学中,晋升到终身聘任或副教授时,h≈12;晋升到教授时,h≈18 • 美国物理学会的会员的h值应该在15到20之间 • 美国国家科学院的院士应该为45或者更高 • Note: m≈1 m值较高的科学家所需的时间短 Note:从发表论文的第一年开算,博士学位之前
影响因素: • 单一的指标只能粗略地评价某个研究人员各个层次的概况,应该综合考虑 • Life change:授予/剥夺 终身特聘教授 • 不同的领域合适的h值有所不同:每篇论文的平均参考文献数,该领域中平均每个科学家发表的论文数以及该领域的规模 • 在某个分支领域内引用分布的偏态性: “种子”论文 ;合作者
影响因素: 自引: • 尽管自引可以明显地增加科学家的h指数,但是自引对于h指数的影响比被引总频次的影响要小 • 引用次数小于h的论文的自引数与h不相关,只与引用次数大于h的论文有关 • 校正:>h次的论文按频次排序,找出自引即可 • 方舟子:“无法避免别有用心者钻空子”
实例: 1.过去20年获诺贝尔奖的物理学家的h值和m值 计算m: 时间:文献发表年;1955 检索策略:姓名 • 诺贝尔奖得主有着较高的h值 ,84%大于30 • 表明诺贝尔奖不是来自幸运的 灵光一现,而是系统的研究过程
实例: 值得注意的是,与其他成功的科学家相比m值并不是很高,49%小于1,是因为诺贝尔奖一般是在研究者科研生产力最大化后的很长一段时间后才颁发。
实例: 2. 2005年美国科学院物理和天文学院士 • 新晋升的院士与姓氏为A和B的院士h的均数、标准差接近,说明h指数是一个稳定的评价科学家科研成就的指标。
实例: 3.H指数还可应用于小组的科研成果评价 SPIRES高能物理学家数据库列出了物理学家的h指数概况,也能够计算科研小组的h指数。大致上小组的h指数要比个人的h指数要高,但小于小组成员的h指数之和。 每个人对于小组h指数的贡献不一定与每个人的h指数成比例 可能对院系主管和即将毕业的学生有意义
实例: 4.生物学及生物化学领域: 生物学家的h指数比物理学家偏高,不同领域的h值的异同还需要进一步研究 2005年,美国科学院的院士中,物理学与天文学领域h指数为均数为44,标准差为14, 生物学与生物医学领域均数为57,标准差为22
衷心感谢黄老师的耐心指导和各位老师同学的批评指正!衷心感谢黄老师的耐心指导和各位老师同学的批评指正! Thank You !