1 / 28

文献计量学 05

文献计量学 05. 齐普夫定律. 大纲. 齐普夫与最省力法则 齐普夫定律的形成 齐普夫定律的基本原理 齐普夫定律的发展 齐普夫定律的应用. 齐普夫. George Kingsley Zipf (1902-1950) :美国哈佛大学教授、著名的语言学家和心理学家 用大量的统计数据来验证前人有关词频分布规律的研究成果 1948 年出版了 《 人类行为与最省力法则 - 人类生态学引论 》

kynan
Download Presentation

文献计量学 05

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 文献计量学05 齐普夫定律

  2. 大纲 • 齐普夫与最省力法则 • 齐普夫定律的形成 • 齐普夫定律的基本原理 • 齐普夫定律的发展 • 齐普夫定律的应用

  3. 齐普夫 • George Kingsley Zipf (1902-1950):美国哈佛大学教授、著名的语言学家和心理学家 • 用大量的统计数据来验证前人有关词频分布规律的研究成果 • 1948年出版了《人类行为与最省力法则-人类生态学引论》 • Human Behaviour and the Principle of Least Effort: an Introduction to Human Ecology. Addison-Wesley 1949

  4. 齐普夫的最省力法则 • 例子: • 从A地到B地时,可以走不同的路;从经济上、安全上、时间上并结合本人的主观条件(如身体情况)及客观情况(所处的环境)等种种因素来考虑,设法选择一条最符合自己要求的道路,使得自己付出的“力”最小。 • 利用语言表达思想时,会受到两个方向相反的力的作用 • 单一化力:希望尽量简短 • 多样化力:希望能被对方理解 • 单一化力与多样化力取得平衡,使自然语言词汇的分布呈现了双曲线。

  5. 齐普夫经验法则的形成 • 齐氏定律形成的基础 • 齐氏定律的确立

  6. 齐氏定律形成的基础 • 频率词典(词表) • 每一个词在一定长度的文件中出现的频率 • 两个最基本的数量指标 • 词的出现频率、词的序号 • 艾斯杜(J. Estoup,速记员)发现(1916) • 较长的文章中,词频分布的定量化形式, • Nr×r=C(常数) • 词的序号:1,2,…,r,…,D (1:绝对频率最大的词,D:绝对频率最小的词) • 词的绝对频率:n1,n2,…,nr,…,nD

  7. 贡东(E. Condon)的公式 • 贡东:美国贝尔电话公司物理学家,电话线路的通讯能力 • 根据德韦和阿叶斯的资料,得到词频分布图 • 词的序号的对数为横坐标 log r • 词的绝对频率的对数为纵坐标 lognr • 定量公式:fr×r=C 令:tanα=γLog(r γ×nr)=log C • C的值究竟是不是常数,还必须加以验证

  8. 齐普夫定律的确立 • 检验E. Condon关系式的可靠性并研究C的性质 • 确定c是一个参数,使得 • 验证了单参数词频分布公式的正确性 • Fr × r=c(或者pr × r=c)

  9. 齐普夫定律的基本原理 • 齐普夫定律的基本内容 • 齐普夫定律的图像描述 • 齐普夫定律的局限性

  10. 齐普夫定律的基本内容 • 齐普夫定律 • fr ×r=c • Fr:频次,r:等级序号 • 齐普夫定律的“最省力法则”的解释 • 任何语言中,凡是使用频率最高的词,功能总是不会太大;因为其本身在这个场合中价值小,因而传递它们所需要的“力”就不大。

  11. 齐普夫定律的图像描述 • 横坐标:等级序号r • 纵坐标:相应的频率f • 等级r与频率f均取对数。 • 虚线:lnr+lnf=lnc • 实线:blnr+lnf=lnc • (斜率为b)

  12. 齐普夫定律的局限性 • 对出现频率特别高的词和特别低的词,并不能完全地反映分布规律 • 低频率的词,序号相同的很多 • 高频率的词,序号相同的词随着频率的增高而越来越少

  13. 齐普夫定律的发展 • 朱斯(M. Joos)修正 • 芒戴尔伯特B. Mandelbrot修正式 • 布斯(B. Booth)的齐普夫第二定律

  14. 朱斯修正式 • 单参数词频分配律--〉双参数词频分布律 • Pr=cr-γ中,c和r的负指数(以γ表示)都是参数 • γ不是一个常数而是一个参数 • 当词典收词多时,γ会增大,即图像中的α角会增大;当收词少的时候, γ会减少,α角会变小。 • 双参数词频分布公式 • Pr=cr-γ • γ>0,c>0,对于r=1,……,D,参数γ,c要使 • 当γ=1时,公式变为Pr=cr-1,就是齐普夫的单参数词频分布律

  15. 芒戴尔伯特修正公式 • 三参数频率分布律 • Pr=c(r+a)-b • 0≤ a<1,b>0,c>0,对于r=1,……,D,参数a,b,c要使 • 参数c:与出现频率最高的词的概率有关 • 参数b:与高概率词的数量多少有关,对于r<50的高频词,b是r的非减函数,随着r的增大,参数b并不减少 • 参数a:与词的数量n有关。 • 当a=0,公式形式为Pr=cr-b • 当a=0,b=1时,公式形式为Pr=cr-1

  16. 齐普夫词汇分布图

  17. 齐普夫第二定律 • 齐普夫定律可以分成两大定律 • 高频词分布的定律 (齐普夫第一定律) • 低频词分布的定律(齐普夫第二定律) • 布斯的修正

  18. 齐普夫的推导 • Pr=n/T ,pr为第r位词出现的概率,T为词的总体集合中不同词出现的总次数,n为序位为r的词汇的绝对频率 • 仅仅出现一次的词汇,可能有许多个,一般而言:

  19. 布斯修正公式 • 称齐普夫第二表达式 • 英文正文中低频词的数量 • I1为出现一次的词的数量 • In为出现n次的词的数量 • 与正文的长度和常数C无关,仅与单词的频率有关 n=2,3,4……

  20. 齐普夫定律的应用 • 文献标引和词表编制 • 信息检索 • 在图书情报管理中的应用

  21. 词表编制 • 叙词表和标引可以提高计算机检索的效率 • 根据齐普夫定律的频率分布方法,通过标引试验,找出被标引文献与叙词使用频率的分布特征,确定合乎需要的参数值。 • 选用原始文献中的术语,统计其发生的频率,研究分布特征,最后决定合乎使用频率的词

  22. 文献标引 • 自动标引 • 利用计算机对每一个词的频率进行统计分析,筛选出适合标引的词汇。 • 卢恩(Luhn)的频率自动索引方法 • 去掉高频词 • 去掉后缀 • 找出相应的词干 • 加权标引 • 斯派克 琼斯(Spack Jones)的加权法 • 如果有N篇文章,某个检索词涉及其中的n篇,给那么这个词log(N/n)+1的权值,可得到较佳的检索效果

  23. Luhn的频率自动标引法

  24. 向量空间模型(Vector Space Model) • 基本思想是以向量来表示文本(W1,W2,W3……Wn),其中 Wi 为第 i 个特征项的权重,一般可以选择词作为特征项 • 由这些词作为向量的维数来表示文本,最初的向量表示完全是 0、1 形式,即如果文本中出现了该词,那么文本向量的该维为 1,否则为 0。 • 词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用 TF-IDF 公式。

  25. 向量空间模型(Vector Space Model) • 其中, 为词t在文本 中的权重,而 为词t在文本 中的词频,N为训练文本的总数, 为训练文本集中出现t的文本数,分母为归一化因子。

  26. 信息检索 • 用于估计信息检索系统所需要的存储量 • 倒排档的大小,取决于同属性字段种不同词的数量以及每个词的出现频率 • 按照齐普夫定律,计算词频出现的几率

  27. 在图书情报管理中的应用 • 处理与语言文字有关的问题 • 将“最省力法则”的原理应用于图书情报信息事业的管理 • 合理选择图书馆或者信息中心的最佳地理位置,使得使用者能以最省力途径方便到达 • 用以设计图书馆、信息中心资料库的排架

  28. 齐普夫公式的汇总 • 齐普夫第一定律:关于高频词的定律 • 单参数定律:fr ×r=c • 双参数定律: Pr=cr-γ • 三参数定律:Pr=c(r+a)-b • 齐普夫第二定律:关于低频词的定律

More Related