1 / 32

一种改善语言教学的利器 —— 语料库

一种改善语言教学的利器 —— 语料库. 桂诗春. 语料库的兴起. 发祥地 语料库语言学首先在美国。 60 年代开始 , 美国建立了 100 万词的 Brown 语料库( Francis & Kucera) 。 同时 , 英国 Edinburgh 大学的 300,000 词的口语语料库。 但是在美国生成语言学的影响下,得不到很多发展。在英国和欧洲却得到迅猛的发展, ICAME ( International Computer Archive of Modern English) 在挪威的建立。

mauli
Download Presentation

一种改善语言教学的利器 —— 语料库

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 一种改善语言教学的利器——语料库 桂诗春

  2. 语料库的兴起 • 发祥地 • 语料库语言学首先在美国。 60年代开始,美国建立了100万词的Brown语料库(Francis & Kucera)。 • 同时, 英国Edinburgh大学的300,000词的口语语料库。 • 但是在美国生成语言学的影响下,得不到很多发展。在英国和欧洲却得到迅猛的发展,ICAME(International Computer Archive of Modern English)在挪威的建立。 • 美国人开始觉醒, 1999在Michigan召开了”北美语料库语言学讨论会。Simpson和Swales在论文集呼吁要像人造卫星和汽车工业那样迎头赶上。ANC正在积极进行,LDC(Linguistic Data Consortium)收集了许多语料。LDC的口号是No data like more data。

  3. 语料库的兴起 • BC (before computers)前: • 100多年前, Wilhelm Kaeding 动员了”an army of helpers”(5000人)建立了一个1千1百万词的德语语料库来研究速写 (Hausser 1998)。 • 18世纪Dr Johnson based 编写英语词典引用了来自著名作家的150,000例句。 • Palmer对常用词的研究。 • Thorndike的工作(包括编写词典和编写3万常用词表。(1944) • Hornby的Advanced Learner’s Dictionary of Current English.(1948) • West的General Service List of English Words(1953) • Quick在50年代开始调查英语习惯语用法(SEU)(1968)。

  4. 语料库的兴起 • BC后: • 按照Brown语料库的传统建立了一系列的语料库(澳洲的ACE、新西兰的Wellington Corpus、印度的Kolhapur Corpus,英国的LOB,德国的Frown和Flob,中国的JDEST,等等) • 越来越大,如Bank of English,BNC,LSWE,分别比Brown语料库大410倍,100倍和40倍。 • 专门用途语料库,英国的几大词典出版商都建立自己的语料库和编辑以语料库为基础的辞书,如COBUILD,OED,LONGMAN。美国的AHI也是建立得较早的语料库。各种口语语料库(如LLC(London-Lund Corpus)、学习者语料库(ICLE,CLEC,HKUST, 等)、CHILDES(The Child Language Exchange System), 包括JDEST, GPEC(Guangzhou Petroleum English Corpus), 都带有一定的专门的目的。 • 越来越普遍,利用小语料库(从几十万到100万词)来研究ELT。

  5. 什么是语料库? • A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. (Sinclair) • Corpus linguistics is the kind of research, carried out in university departments of linguistics, computer science, and related subjects (and nowadays often in industrial research labs too), which makes crucial use of language corpora. (G. Sampson & D. McCarthy)

  6. 什么是语料库? • 语料库必须有代表性。不管语料库有多大,它所包含的语料都不过是整个语言的一部分样本。样本太少,代表性就不够,通过样本来了解整体就有误差。这牵涉到选择文本的方式(mode,speech or writing)、类型(type,a book,a journal,etc。)、领域(domain,academic or popular)、语言(language,American,British,etc.)、来源地(location)、时间(date)。 • 语料库必须是机读(machine-readable)的。 • 语料库必须是用统计手段分析和整理过的。 • 语料库最好是向公众开放的。语料是经得起检验的。

  7. 语料库的设计和制作——以CLEC(Chinese Learner English Corpus)为例 • 设计和制作语料库必须有明确的目的。如果是通用性的,使用现成的,就足够了。如果有特定的研究目的,而又较多地了解一些特定领域内的语言用法,就可以建立专门用途的语料库。 • 有了明确的目的以后,就必须考虑这方面的语料范围,以及制定抽样方案。抽样的基本原则是保证样本的代表性(representativeness)和均衡性(balance),语料库的各个部分的权重必须大致相同。

  8. *实为1,175,656,减去汉语拼音的专有名词

  9. CLEC的错误赋码 • 错误赋码共63个。其分类原则是: • 简单和易于操作 • 常见的分得细些,不常见的粗些 • 提供足够的错误信息(错误本身、错误类型和范围) • 开放性,容许研究者根据需要再作增加或进一步细分。 • 对语体使用不作赋码,避免主观性。

  10. Code Form Verb Phrase Type Code Type fm1 spelling vp1 pattern fm2 word building vp2 set phrase fm3 capitalization vp3 agreement vp4 finite/non-finite vp5 non-finite vp6 tense vp7 voice vp8 mood vp9 modal/auxiliary 错误标注方案

  11. - = position of the error 4 = the context in which the error occurs, 4 words in front of the error vp = verb phrase 6 = the 6th type of error: tense In the past, peopleare[vp6, 4-]kind to each other… 一个例子

  12. Zipf定律除了高低两端的次序外都较准确。

  13. 语料库的设计和制作 • 一般来说,对语料库的统计整理主要是编制词频排列表(按次序和按字母排列)和词频分布表。 Carroll等人根据AHI所编制成《词频手册》(1971)对词频排列表,除了频数外,还计算出其D值,U值和SFI值。CLEC也照样给出这几个值。D值为分布指数,从1~0,指数越大意味着一个词在不同类别的文本中的频数越大,使用面越广。U值指一个词折算成100万词的频数(因为不是所有的语料库都是100万词的),SFI为标准频数指数(Standard Frequency Index),表示词型和词次的关系,根据U值算出。90表示一个词在10词次、80表示100词次、70表示1000……40表示100万词次中出现一次。

  14. 语料库的设计和制作 • 建立语料库需要的技术条件 • 硬件:计算机(台式、笔记本)、Pentium4以上,内存520~1GB,硬盘120GB以上;扫描仪,最好是扫描文本专用的。 • 软件:Wordsmith,TACT,Concodancer;Abbyy FineReader 8.0;Adobe Acrobat; Microsoft Word,Excel. • 联网,Google搜索。

  15. 频率 D U SFI st2 st3 st4 st5 st6 SFI=50,100,000词中出现一次 DEBT 32 0.096 9.43 49.75 0 0 0 1 31 MEMORABLE 32 0.23 11.95 50.8 2 1 0 29 0 FLAG 32 0.366 15.4 51.9 27 1 0 2 2 TROUBLES 32 0.93 29.4 54.7 2 5 7 6 12 表4 词频排列表 50,000词中出现一次

  16. 语料库的应用 根据Leech(1998)的说法,可以有下列几个方面: • 和本族语使用者比较,目标语学习者有哪些语言特征是明显地超用(overuse)和少用(underuse)的? • 学习者的目标语行为在多大程度上受到他们的母语的影响(负面转移)? • 他们在哪些领域不能够充分利用目标语的表达资源,而采取了“回避策略”? • 他们在语言运用的哪些方面达到接近本族语水平?在哪些方面仍然处于非本族语的水平? • A国的学习者的非本族语的语言运用有哪些重要方面(按频数的次序)蒙受损失,需要帮助?

  17. 语料库的应用 • 中国英语学习者的英语超用和少用词的情况。Wordsmith的另一个子程序是“关键词”(keywords), 它可以把一个语料库和另一个参照语料库比较时,它在文本中出现的频数概率小于或等于用户所规定的p值。经过比较后,如果一个词的出现超出所期望的几率,我们把它叫做“正关键词”;少于所期望的几率时,我们称之为“负关键词”。我们把CLEC和Flob两个语料库加以比较,发现两个语料库超用的词和文本的内容有很大的关系,如CLEC的语料大都来自与个人和学校生活有关,所以life, school, college, campus, English, friends, knowledge, we, I, teachers, students。有些超用词则来自命题作文,如water, fresh, health, mortality, fake, society, jobs, money, countries, eat, harm, pollution, births, shortage, river, euthanasia等。

  18. 语料库的应用 • 而Flob的超用词则和英国的政治和社会生活有关,如British, church, European, community, bullet, Labour, UK, England, minister, religious, Christian, tax等。 • 所以超用词的比较仅可以说明语料的题材不同。但是少用词却可以暴露中国英语学习者的一些问题。例如of, her, had, she, been, was, an, local, his, cent, its, within, Mr., where, by, which, were, might, as, off, between, he’d, he等,都是属于前50个关键性最高的少用词。这可以说明:中国英语学习者倾向于少用被动语态(如been,by),过去时态(had,was,were,might),第三人称代词(her, she,his,its,he’d,he)和一些wh-词(which,where),而其原因很可能是受汉语的影响:汉语的被动式用得较少,但表达方法却很多,不一定非用“被字句”;汉语表示过去没有形态变化;汉语第三人称在语音上没有差别;汉语的内嵌句较少,关系代词也没有英语用得那么普遍。

  19. 语料库的应用 • 英语的一个特点是习惯用法很多,很多词的搭配是规约性的,没有什么理由可说。这往往成为英语学习者的一个难点。在Wordsmith的concord子程序,可以帮助我们了解一个词的搭配词的情况。例如英语的great,large,big是三个同义词。我们比较了它们在CLEC,Flob和Frown的频数 :

  20. 但是在几个NS的语料库里,10个以上的搭配词只有deal,Britain和many。在BNC里harm倒是有29次,折算下来中国学生多用了255倍。

  21. 语料库的应用 • 又如risk, danger, threat, hazard这几个近义词的使用情况也反映了中国学习者的掌握和英美人大不相同:

  22. 语料库的应用 • 中国学生掌握和使用的数量偏少。 • 中国学生使用这几个近义词,特别是risk和threat,明显地少于操本族语者,而使用danger却又略多于他们。 • 中国学生使用risk的搭配非常有限(take the risk[8], at the risk[3], to risk[6]),较多样:英美人比较多样,avoid/carry/ eliminate/ignore/crease/involve/give/reduce/run/ worth/lack of the risk; 它还可以有一个修饰词,如conventional/maximum/no/ some/ suicide/ own/ unnecessary/hazard/ with/ without risk, 最多用的修饰词是high,但中国学生都不会用。

  23. 语料库的应用 • 中国学生之所以多用danger是因为不懂得还有risk,threat等其他近义词,而且把danger当作是“危险”、“风险”、“威胁”的上义词,在写作中出现下面的失误: Fake furniture brings danger to people. (It is risky buying fake furniture.) Water is facing the danger of shortage. (We are facing the threat of water shortage.)

  24. 语料库的应用 • 搭配是中国学生的难点,在写作时往往会碰到一些搭配不好解决。例如utterly在词典的释义里是“完全、彻底”的意思,但是Louw发现在COBUILD 语料库里发现了99个搭配,而在大多数情况下,都是用于“坏”的意义。

  25. 1 nothing. The farmers were utterly against the union and utterl 2 rly against the Union and utterly against the Wages Board. Now 3 f it everything seemed so utterly altered that I felt illogica 4 but Io has no wind and is utterly arid. Most likely this erosi 5 rst thing we'd ever seen, utterly blackened now, the skin on t 6 in his diary: "Whitehall utterly burned to the ground, nothin 7 In my experience it gets utterly confused. And there are seve 8 s ambitious wife, are not utterly convincing. Miguel Fernandes 9 nfident, well-trained and utterly dedicated to the idea of win 10 feet. Its hopes appeared utterly demolished in 1956, when Mr 11 outwards from the centre utterly destroying everything in its 12 the island the view was utterly different. The filmy enchant 13 I think it would be an utterly different kind of programme 14 probability's sake, not utterly disconfirming the tale of a

  26. 又如根据Sinclair的调查, regime在67%的情况下都是用于西方社会看成是”坏的”搭配.

  27. 语料库的应用 • 有些语言搭配可以通过语料库来寻找更多的说法,使文章变得多采多姿。例如论文中免不了要谈到theory。通过检索,我们可以找到一些搭配:need, assume, construct, put forward, support, believe, lead to, promote, discuss, revise, based on….a(the) theory; 或a (the) theory faces, behind, evolved, depends on, emerged from, proposes, holds, related to, grew out of, concerned, serves….

  28. 语料库的应用 • 语料库还可以揭示一些常用的句型,例如: • A matter of ——ing:a matter of developing skills;a matter of learning;a matter of becoming able • Be spent的被动式后面跟着“——ing”:whose early career was spent teaching…;many valuable minutes were spent recounting the story…; much of my time is spent making copious notes… • The naked eye(肉眼)在英语里使用在有限制的、但又未固定的语境,例如:easily visible to the naked eye。必须有冠词,而且在一个子句后面,前面有to,有时则是 with。 • 从lexical phrase到lexicogrammar、formulaic language,pattern grammar。从data-based approach到data-driven approach。要害的问题是The data is not annotated in terms of existing theories。

  29. 语料库的应用 • 通过对学习者的语料进行语法赋码找出不同水平的学习者的语言问题。中国英语学习者的书面英语的特点是“写话”,但和真正的英语口语又有所区别,主要是没有明显的语体特征,口语化的程度并不高。其特征是:所使用的词汇量不大、词不达意、句法结构失误较多、功能词掌握得不全面(初级学习者尤为突出)。中国英语学习者书面语体往往受到汉语书面语的影响,这表现在下面几个方面的少用词;但总的趋势是随着中国英语学习者的水平的提高,而逐步靠近本族语使用者: • 第三人称he、him、his、she、her、its、self,因为现代汉语的口语中的第三人称缺乏性的差异,所以在交际中倾向于重复先行词。 • 表示被动式的been和by,因为现代汉语表示被动的方式很多,往往不需要使用被动句。 • 现在和过去分词。因为汉语中没有这种形态变化,中国学习者感到难以掌握。 • wh-词,如where、which、whose、whom,因为汉语中没有那么多的关系分句。 • 介词of、at和off,因为它们和汉语的小品词不同,语法意义多于词汇意义,中国学习者难以掌握。 • 不定冠词a(n),汉语中没有这样的用法,中国学习者CLL往往容易忽略。

  30. 谢谢!欢迎多提意见! 你愿意再听多一点关于CLEC的情况吗? 还是你想更具体地了解怎样利用现有的手段建造一个语料库吗?

More Related