1 / 29

语料库是怎样练成的 ?

语料库是怎样练成的 ?. 桂诗春. 语料库的设计. 语料库的类别 通用性语料库 专门用途语料库 ( 口语语料库、母语习得语料库、为词典收集例句的语料库、学习者语料库,医学语料库、语言学语料库,等等) 根据不同类型的语料库而决定不同的抽样方案( sampling plans ). Brown 语料库的抽样方案. ECOL 语料库的抽样方案. T = Theoretical, General, Historical,Comparative Linguistics Grammar, Morphology, Phonology, etc.

ouida
Download Presentation

语料库是怎样练成的 ?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 语料库是怎样练成的? 桂诗春

  2. 语料库的设计 • 语料库的类别 • 通用性语料库 • 专门用途语料库(口语语料库、母语习得语料库、为词典收集例句的语料库、学习者语料库,医学语料库、语言学语料库,等等) • 根据不同类型的语料库而决定不同的抽样方案(sampling plans)

  3. Brown语料库的抽样方案

  4. ECOL语料库的抽样方案 • T = Theoretical, General, Historical,Comparative Linguistics Grammar, Morphology, Phonology, etc. • L= Neurolinguistics, Natural Language Processing, Computer-aided Technology, Statistics,Biolinguistics, etc. • St= Stylistics,Discourse Analysis,Textlinguistics, Translation,etc. • So=Sociolinguistics,Culture & Language,etc • A=Applied Linguistics, Second Language Acquisition, Testing, Methodology,etc.

  5. 文本的资源和准备 • 书籍(专著、教科书、百科全书、手册)、杂志文章、USENET,等等。 • 要求将资料转换成纯文本格式。 • 注意转行符。一般可以通过.doc来转换。 • 扫描文件要用OCR软件识别,并作编辑。 • 检查分类的准确性。

  6. 使用Wordstat(Peladeau 2005)软件对500篇样本的分类作验证,结果是总准确率为71%,其中Cg,St和Pr最好,分别为100%、95%和92%。Co和Al分别为83%和81%,最低为P,只有36%。

  7. 如何使用通用性软件来分析语料库? • Wordsmith • Antconc • 编制词表(Wordlist) • 词目索引(Concordance) • 找寻搭配词(Collocates) • 找寻关键词(Keywords),主要是超用词(overused words)和少用词(underused words) • Range & Frequency • 编制词表 • 找寻常用词 • Claws • 做语法赋码(POS tagging)

  8. 基本步骤 • 基本统计 • 编制词频分布表,简单的叫Word List,专业的叫Rank List。目的是了解常用词的覆盖面,看其分布是否属于对数正态。 • 编制几个语料库的基本数据对照表。目的是了解语料库的一些差异。

  9. 收集了5088721个词的American Heritage Intermediate Corpus的对数正态分布

  10. [1]这是用Wordsmith计算出来的,由于各种计算词频的软件在处理连字号时略有不同,故得出的词次和词型有点差异。例如用Nation的Frequency和Range统计,ECOL的词次和词型分别为1070371和32425。[1]这是用Wordsmith计算出来的,由于各种计算词频的软件在处理连字号时略有不同,故得出的词次和词型有点差异。例如用Nation的Frequency和Range统计,ECOL的词次和词型分别为1070371和32425。

  11. 常用的覆盖面 • 我们把几个语料库的常用词,从1000到10000的覆盖面加以比较,可以看到,ECOL在于Flob和其他几个BNC的专业性语料库之间,说明ECOL属于专业性语体,但又没有那么专业,所以略为靠近通用性语料库。这是因为语言学讨论的是语言。

  12. 罕用词的比较研究 • 罕用词(一次词,hepax legomena)也可进行比较。原来的几个语料库的词次不一样,比较的应该是它们的相对的百分比。Flob的一次词的比例最高,ECOL次之,这也许是专业性语料库的一个特征。ECOL在Flob和其他专业性语料库之间,也许是因为语言学的对象是语言,常会引用一些日常生活的话语,专业性不如其他语料库强。 这些一次词中,(1)有不少是一般语料中的常用词,如abrupt、ascend、award、captive、intercept、cushion,tobacco,等;(2)有一些作者针对特定场合和需要而自己派生的词,如non合成的词(如non-random、non-selected、non-problematic等)有233个,由over合成的词(如over-educated、over-informative、over-inclusion等)有55个,还有archaic-sounding、babble-fricatives、thisology、thatology、thereby-backgrounding、think-alouds、topichood、那样的临时编造的词(nonce words)。(3)有不少专用名词,特别是人名。

  13. 罕用词的比较研究

  14. 关键性研究 关键性(Keyness)来自关键词(Keywords)。 关键性研究主要是对比两个语料库,找出超用词(Overused Words)和少用词(Underused Words),以研究两个语料库在用词,乃至语体上的差别。ECOL的超用词有1851个,少用词有896个。 两个语料库的词次不一样,所以比较的不是词次,而是它们所占的百分比。在百分比的差异有显著意义时才判定一个词是超用,还是少用。 Wordsmith和Antconc都可以计算关键性指标。

  15. 了解有哪些词族是某个语料库经常使用的。例如ECOL虽然有1951个超用词,但是只有205个词组是生成能力最强的,它们覆盖了179,405个词次,是全部超用词的24%。这些词组有些和语言学有关,有些和一般的议论文有关。其中有些词在语言学中有其特殊的内涵。了解有哪些词族是某个语料库经常使用的。例如ECOL虽然有1951个超用词,但是只有205个词组是生成能力最强的,它们覆盖了179,405个词次,是全部超用词的24%。这些词组有些和语言学有关,有些和一般的议论文有关。其中有些词在语言学中有其特殊的内涵。

  16. 关键词有助于了解语料库的语体 有些超用词还提供了分析语体特征的线索,例如of和其他的几个语料库相比都是超用,但of不是单独存在的,在很多场合,都是连接两个名词(NN1和NN2),Sinclair指出,在这些名词词组里,其主要的意义在后面的名词(NN2)例如 The notion of machine intelligence The position of France An object of embarrassment Various kinds of economic sanctions 我们不妨把NN1称为classifying nouns,并且把它们和其他几个语料库的相同的名词(例如part(s)、kind(s)、form(s)、set(s)、type(s)、term(s)等43个词比较,发现语料库的用词明显地多于其他语料库。

  17. 语料库的分布 • 但是语料库中的词项不能只看频率,还必须看它在几个语料库中的分布,要用Merge来进行:

  18. 频率 D U SFI st2 st3 st4 st5 st6 SFI=50,100,000词中出现一次 DEBT 32 0.096 9.43 49.75 0 0 0 1 31 MEMORABLE 32 0.23 11.95 50.8 2 1 0 29 0 FLAG 32 0.366 15.4 51.9 27 1 0 2 2 TROUBLES 32 0.93 29.4 54.7 2 5 7 6 12 表4 词频排列表 50,000词中出现一次

  19. 词目索引和搭配词 • 使用Wordsmith和Antoconc都可以做到,主要是按照个人写作论文需要。 • 词目索引提供的是例句和用法的频率,不一定是判断对与错。搭配词是中国学生写作的难点。 • 所提到的软件可以到下列地址下载: http://www.clal.org.cn/personal/scgui/download/桂诗春月月谈

  20. 谢谢!

More Related