语料库是怎样练成的 ?

语料库是怎样练成的? 桂诗春

语料库的设计 • 语料库的类别 • 通用性语料库 • 专门用途语料库(口语语料库、母语习得语料库、为词典收集例句的语料库、学习者语料库，医学语料库、语言学语料库，等等） • 根据不同类型的语料库而决定不同的抽样方案（sampling plans）

Brown语料库的抽样方案

ECOL语料库的抽样方案 • T = Theoretical, General, Historical,Comparative Linguistics Grammar, Morphology, Phonology, etc. • L= Neurolinguistics, Natural Language Processing, Computer-aided Technology, Statistics,Biolinguistics, etc. • St= Stylistics,Discourse Analysis,Textlinguistics, Translation,etc. • So=Sociolinguistics,Culture & Language,etc • A=Applied Linguistics, Second Language Acquisition, Testing, Methodology,etc.

文本的资源和准备 • 书籍（专著、教科书、百科全书、手册）、杂志文章、USENET，等等。 • 要求将资料转换成纯文本格式。 • 注意转行符。一般可以通过.doc来转换。 • 扫描文件要用OCR软件识别，并作编辑。 • 检查分类的准确性。

使用Wordstat(Peladeau 2005)软件对500篇样本的分类作验证，结果是总准确率为71%，其中Cg，St和Pr最好，分别为100%、95%和92%。Co和Al分别为83%和81%，最低为P，只有36%。

如何使用通用性软件来分析语料库？ • Wordsmith • Antconc • 编制词表（Wordlist） • 词目索引（Concordance） • 找寻搭配词（Collocates） • 找寻关键词（Keywords），主要是超用词（overused words）和少用词（underused words） • Range & Frequency • 编制词表 • 找寻常用词 • Claws • 做语法赋码（POS tagging）

基本步骤 • 基本统计 • 编制词频分布表，简单的叫Word List，专业的叫Rank List。目的是了解常用词的覆盖面，看其分布是否属于对数正态。 • 编制几个语料库的基本数据对照表。目的是了解语料库的一些差异。

收集了5088721个词的American Heritage Intermediate Corpus的对数正态分布

[1]这是用Wordsmith计算出来的，由于各种计算词频的软件在处理连字号时略有不同，故得出的词次和词型有点差异。例如用Nation的Frequency和Range统计，ECOL的词次和词型分别为1070371和32425。[1]这是用Wordsmith计算出来的，由于各种计算词频的软件在处理连字号时略有不同，故得出的词次和词型有点差异。例如用Nation的Frequency和Range统计，ECOL的词次和词型分别为1070371和32425。

常用的覆盖面 • 我们把几个语料库的常用词，从1000到10000的覆盖面加以比较，可以看到，ECOL在于Flob和其他几个BNC的专业性语料库之间，说明ECOL属于专业性语体，但又没有那么专业，所以略为靠近通用性语料库。这是因为语言学讨论的是语言。

罕用词的比较研究 • 罕用词（一次词，hepax legomena）也可进行比较。原来的几个语料库的词次不一样，比较的应该是它们的相对的百分比。Flob的一次词的比例最高，ECOL次之，这也许是专业性语料库的一个特征。ECOL在Flob和其他专业性语料库之间，也许是因为语言学的对象是语言，常会引用一些日常生活的话语，专业性不如其他语料库强。这些一次词中，（1）有不少是一般语料中的常用词，如abrupt、ascend、award、captive、intercept、cushion，tobacco，等；（2）有一些作者针对特定场合和需要而自己派生的词，如non合成的词（如non-random、non-selected、non-problematic等）有233个，由over合成的词（如over-educated、over-informative、over-inclusion等）有55个，还有archaic-sounding、babble-fricatives、thisology、thatology、thereby-backgrounding、think-alouds、topichood、那样的临时编造的词（nonce words）。（3）有不少专用名词，特别是人名。

罕用词的比较研究

关键性研究 关键性（Keyness）来自关键词（Keywords）。关键性研究主要是对比两个语料库，找出超用词（Overused Words）和少用词（Underused Words），以研究两个语料库在用词，乃至语体上的差别。ECOL的超用词有1851个，少用词有896个。两个语料库的词次不一样，所以比较的不是词次，而是它们所占的百分比。在百分比的差异有显著意义时才判定一个词是超用，还是少用。 Wordsmith和Antconc都可以计算关键性指标。

了解有哪些词族是某个语料库经常使用的。例如ECOL虽然有1951个超用词，但是只有205个词组是生成能力最强的，它们覆盖了179,405个词次，是全部超用词的24%。这些词组有些和语言学有关，有些和一般的议论文有关。其中有些词在语言学中有其特殊的内涵。了解有哪些词族是某个语料库经常使用的。例如ECOL虽然有1951个超用词，但是只有205个词组是生成能力最强的，它们覆盖了179,405个词次，是全部超用词的24%。这些词组有些和语言学有关，有些和一般的议论文有关。其中有些词在语言学中有其特殊的内涵。

关键词有助于了解语料库的语体 有些超用词还提供了分析语体特征的线索，例如of和其他的几个语料库相比都是超用，但of不是单独存在的，在很多场合，都是连接两个名词（NN1和NN2），Sinclair指出，在这些名词词组里，其主要的意义在后面的名词（NN2）例如 The notion of machine intelligence The position of France An object of embarrassment Various kinds of economic sanctions 我们不妨把NN1称为classifying nouns，并且把它们和其他几个语料库的相同的名词（例如part（s）、kind（s）、form（s）、set（s）、type（s）、term（s）等43个词比较，发现语料库的用词明显地多于其他语料库。

语料库的分布 • 但是语料库中的词项不能只看频率，还必须看它在几个语料库中的分布，要用Merge来进行：

词频率 D U SFI st2 st3 st4 st5 st6 SFI=50，100,000词中出现一次 DEBT 32 0.096 9.43 49.75 0 0 0 1 31 MEMORABLE 32 0.23 11.95 50.8 2 1 0 29 0 FLAG 32 0.366 15.4 51.9 27 1 0 2 2 TROUBLES 32 0.93 29.4 54.7 2 5 7 6 12 表4 词频排列表 50,000词中出现一次

词目索引和搭配词 • 使用Wordsmith和Antoconc都可以做到，主要是按照个人写作论文需要。 • 词目索引提供的是例句和用法的频率，不一定是判断对与错。搭配词是中国学生写作的难点。 • 所提到的软件可以到下列地址下载： http://www.clal.org.cn/personal/scgui/download/桂诗春月月谈

谢谢！

语料库是怎样练成的 ?

语料库是怎样练成的 ?

Presentation Transcript