290 likes | 462 Views
语料库是怎样练成的 ?. 桂诗春. 语料库的设计. 语料库的类别 通用性语料库 专门用途语料库 ( 口语语料库、母语习得语料库、为词典收集例句的语料库、学习者语料库,医学语料库、语言学语料库,等等) 根据不同类型的语料库而决定不同的抽样方案( sampling plans ). Brown 语料库的抽样方案. ECOL 语料库的抽样方案. T = Theoretical, General, Historical,Comparative Linguistics Grammar, Morphology, Phonology, etc.
E N D
语料库是怎样练成的? 桂诗春
语料库的设计 • 语料库的类别 • 通用性语料库 • 专门用途语料库(口语语料库、母语习得语料库、为词典收集例句的语料库、学习者语料库,医学语料库、语言学语料库,等等) • 根据不同类型的语料库而决定不同的抽样方案(sampling plans)
ECOL语料库的抽样方案 • T = Theoretical, General, Historical,Comparative Linguistics Grammar, Morphology, Phonology, etc. • L= Neurolinguistics, Natural Language Processing, Computer-aided Technology, Statistics,Biolinguistics, etc. • St= Stylistics,Discourse Analysis,Textlinguistics, Translation,etc. • So=Sociolinguistics,Culture & Language,etc • A=Applied Linguistics, Second Language Acquisition, Testing, Methodology,etc.
文本的资源和准备 • 书籍(专著、教科书、百科全书、手册)、杂志文章、USENET,等等。 • 要求将资料转换成纯文本格式。 • 注意转行符。一般可以通过.doc来转换。 • 扫描文件要用OCR软件识别,并作编辑。 • 检查分类的准确性。
使用Wordstat(Peladeau 2005)软件对500篇样本的分类作验证,结果是总准确率为71%,其中Cg,St和Pr最好,分别为100%、95%和92%。Co和Al分别为83%和81%,最低为P,只有36%。
如何使用通用性软件来分析语料库? • Wordsmith • Antconc • 编制词表(Wordlist) • 词目索引(Concordance) • 找寻搭配词(Collocates) • 找寻关键词(Keywords),主要是超用词(overused words)和少用词(underused words) • Range & Frequency • 编制词表 • 找寻常用词 • Claws • 做语法赋码(POS tagging)
基本步骤 • 基本统计 • 编制词频分布表,简单的叫Word List,专业的叫Rank List。目的是了解常用词的覆盖面,看其分布是否属于对数正态。 • 编制几个语料库的基本数据对照表。目的是了解语料库的一些差异。
收集了5088721个词的American Heritage Intermediate Corpus的对数正态分布
[1]这是用Wordsmith计算出来的,由于各种计算词频的软件在处理连字号时略有不同,故得出的词次和词型有点差异。例如用Nation的Frequency和Range统计,ECOL的词次和词型分别为1070371和32425。[1]这是用Wordsmith计算出来的,由于各种计算词频的软件在处理连字号时略有不同,故得出的词次和词型有点差异。例如用Nation的Frequency和Range统计,ECOL的词次和词型分别为1070371和32425。
常用的覆盖面 • 我们把几个语料库的常用词,从1000到10000的覆盖面加以比较,可以看到,ECOL在于Flob和其他几个BNC的专业性语料库之间,说明ECOL属于专业性语体,但又没有那么专业,所以略为靠近通用性语料库。这是因为语言学讨论的是语言。
罕用词的比较研究 • 罕用词(一次词,hepax legomena)也可进行比较。原来的几个语料库的词次不一样,比较的应该是它们的相对的百分比。Flob的一次词的比例最高,ECOL次之,这也许是专业性语料库的一个特征。ECOL在Flob和其他专业性语料库之间,也许是因为语言学的对象是语言,常会引用一些日常生活的话语,专业性不如其他语料库强。 这些一次词中,(1)有不少是一般语料中的常用词,如abrupt、ascend、award、captive、intercept、cushion,tobacco,等;(2)有一些作者针对特定场合和需要而自己派生的词,如non合成的词(如non-random、non-selected、non-problematic等)有233个,由over合成的词(如over-educated、over-informative、over-inclusion等)有55个,还有archaic-sounding、babble-fricatives、thisology、thatology、thereby-backgrounding、think-alouds、topichood、那样的临时编造的词(nonce words)。(3)有不少专用名词,特别是人名。
关键性研究 关键性(Keyness)来自关键词(Keywords)。 关键性研究主要是对比两个语料库,找出超用词(Overused Words)和少用词(Underused Words),以研究两个语料库在用词,乃至语体上的差别。ECOL的超用词有1851个,少用词有896个。 两个语料库的词次不一样,所以比较的不是词次,而是它们所占的百分比。在百分比的差异有显著意义时才判定一个词是超用,还是少用。 Wordsmith和Antconc都可以计算关键性指标。
了解有哪些词族是某个语料库经常使用的。例如ECOL虽然有1951个超用词,但是只有205个词组是生成能力最强的,它们覆盖了179,405个词次,是全部超用词的24%。这些词组有些和语言学有关,有些和一般的议论文有关。其中有些词在语言学中有其特殊的内涵。了解有哪些词族是某个语料库经常使用的。例如ECOL虽然有1951个超用词,但是只有205个词组是生成能力最强的,它们覆盖了179,405个词次,是全部超用词的24%。这些词组有些和语言学有关,有些和一般的议论文有关。其中有些词在语言学中有其特殊的内涵。
关键词有助于了解语料库的语体 有些超用词还提供了分析语体特征的线索,例如of和其他的几个语料库相比都是超用,但of不是单独存在的,在很多场合,都是连接两个名词(NN1和NN2),Sinclair指出,在这些名词词组里,其主要的意义在后面的名词(NN2)例如 The notion of machine intelligence The position of France An object of embarrassment Various kinds of economic sanctions 我们不妨把NN1称为classifying nouns,并且把它们和其他几个语料库的相同的名词(例如part(s)、kind(s)、form(s)、set(s)、type(s)、term(s)等43个词比较,发现语料库的用词明显地多于其他语料库。
语料库的分布 • 但是语料库中的词项不能只看频率,还必须看它在几个语料库中的分布,要用Merge来进行:
词 频率 D U SFI st2 st3 st4 st5 st6 SFI=50,100,000词中出现一次 DEBT 32 0.096 9.43 49.75 0 0 0 1 31 MEMORABLE 32 0.23 11.95 50.8 2 1 0 29 0 FLAG 32 0.366 15.4 51.9 27 1 0 2 2 TROUBLES 32 0.93 29.4 54.7 2 5 7 6 12 表4 词频排列表 50,000词中出现一次
词目索引和搭配词 • 使用Wordsmith和Antoconc都可以做到,主要是按照个人写作论文需要。 • 词目索引提供的是例句和用法的频率,不一定是判断对与错。搭配词是中国学生写作的难点。 • 所提到的软件可以到下列地址下载: http://www.clal.org.cn/personal/scgui/download/桂诗春月月谈