270 likes | 542 Views
语料库语言学. 1 ,定义: 以往语言学家总是根据自己的语感来判定语言形式的意义,这样归纳出来的所谓“义项”在实际的话语中难免捉襟见肘。而要解决这个问题,最根本的办法就是广泛收录真实语料,建立语料库,对语言形式的语用状况的整体格局进行细致的调查,提示边界模糊的语义范畴。如果不采取这种研究手段,像“能”的“意愿”用法这样重要的义项就难以发现。语料库语言学的研究方法将为词典编纂提供可靠的科学依据,全面地体现语言形式的语义和用法全貌。.
E N D
语料库语言学 1,定义: • 以往语言学家总是根据自己的语感来判定语言形式的意义,这样归纳出来的所谓“义项”在实际的话语中难免捉襟见肘。而要解决这个问题,最根本的办法就是广泛收录真实语料,建立语料库,对语言形式的语用状况的整体格局进行细致的调查,提示边界模糊的语义范畴。如果不采取这种研究手段,像“能”的“意愿”用法这样重要的义项就难以发现。语料库语言学的研究方法将为词典编纂提供可靠的科学依据,全面地体现语言形式的语义和用法全貌。
富士通研究开发中心和北京大学计算语言学研究所从1999年4月起,以人民日报1998年上半年的语料为对象,合作制作大规模汉语标注语料库。富士通研究开发中心已使用这个标注语料库的部分成果,尝试研制汉语切分系统。1999年11月4日,富士通研究开发中心在北京举行了题为《大规模汉语标注语料库的制作与使用》的研讨会。北京大学俞士汶教授作了题为《大规模汉语标注语料库的制作》的报告,富士通研究开发中心松井久仁於主管研究员作了题为《基于标注语料学习的汉语切分系统的研制》的报告。富士通研究开发中心和北京大学计算语言学研究所从1999年4月起,以人民日报1998年上半年的语料为对象,合作制作大规模汉语标注语料库。富士通研究开发中心已使用这个标注语料库的部分成果,尝试研制汉语切分系统。1999年11月4日,富士通研究开发中心在北京举行了题为《大规模汉语标注语料库的制作与使用》的研讨会。北京大学俞士汶教授作了题为《大规模汉语标注语料库的制作》的报告,富士通研究开发中心松井久仁於主管研究员作了题为《基于标注语料学习的汉语切分系统的研制》的报告。
在20世纪70年代,美国制作了著名的Brown Corpus。当时语料库的规模大约在百万词左右,语料的种类也仅限于文本。进入80年代后,英国制作了标注语料库LOB Corpus,同时还制作了语音语料库Birmingham Corpus。这一时期语料库的特征是比70年代规模大,种类也丰富得多。90年代之前的语料基本上英语的。90年代以后,英语以外的语料也出现了,比如日本的EDR语料,NHK的新闻稿语料,日本经济新闻10年语料,以及人民日报50年语料。 • 富士通和北京大学共同制作的半年人民日报(约1,300万汉字)标注语料库是迄今为止世界上规模最大的之一[1]。图1表示世界上主要语料的现状。
语料库大体上有以下这些种类。 • -文本/语音 • -口语/书面语 • -单语种/多语种 • -带标注/不带标注 已有的标注有:词性标记,短语标记,格关系,依存关系,语法树,语义
北大与富士通合作制作的是上面各种类型中带下线的:即单语种书面语的文本语料库,对语料进行了词语切分和词性标注,并且对短语型专有名词加了标注。
汉语书面语文本和其它语言相比,有以下特点:汉语书面语文本和其它语言相比,有以下特点: • 基本上都是汉字,词与词之间没有间隔。汉语没有日语那种黏着于实词的助词 • 汉语的词没有形态变化。英语和日语的动词、形容词都有词尾变化。这些词尾变化为词性标注提供了较多的信息。 • 汉语的词在使用时既没有形态变化,又表现出多功能性,在使用时也没有形态上的变化这个特点给词性标注带来本质性的困难。 • 正是由于汉语有以上特点,由人工编写适用于大规模文本的词语切分规则和词性标注规则几乎是不可能的。目前汉语词语切分和词性标注软件的精度尚不能完全满足实用的要求,影响了汉语自然语言处理技术的发展和应用。
三、大规模汉语标注语料库的制作 3.1 规范的制订 ⑴ 词语切分的规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范”配套 ⑵ 词性标注使用小标记集。合计约40个左右标记。 ⑶ 与已有资源的配合。 ⑷ 针对新闻语料的特点,对专有名词进行了细致的标注。 ⑸ 规范的多元性。
3.2 切分标注软件的开发 • 大规模语料的加工不可能单靠人力完成。从1992年起,北大计算语言所就开始了语料库多级自动加工的研究[6]。从1993年开始开发基于《现代汉语语法信息词典》的“词语切分与词性标注”软件[7],经3届博士研究生的改进与发展,并经很多用户检验,现在已相当成熟:速度快,精度高。这些基本资源和工具的存在使得本项工程所需投入的人力、费用减少到可以承受的程度。
切分句子时,切出所有的可能的切法,用词典中单词出现的概率和语法规则中词性和词性的连接概率,计算所有切法的概率总值,概率值最大的为第一候选。下面是例句「我去北京」的所有切分结果。但「我/r 去/v 北京/ns」的值最大,是第一候选。其中r是代词,v是动词,vn是动名词,ns是地名,f是方位词,j是缩略语,Vg是动语素。
思考练习 • 1,对比你用过的电脑查询系统,比较它们的自动化程度与人机对话的理解程度。 • 2,利用检索软件,对比其查询功能的异同。
统计语言学 • 语言与言语的关系: • 语言规律的发现: • “例不正不立法” • “最重要的语言规律总会在量的分布上表现出来” • 数理语言学
语料库语言学 • “语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。 • (汤姆斯1996年为祝贺语料库语言学的主要奠基人与倡导者的研究论文集而写)
语料库,就是存放语言材料的仓库。传统上,语言学家用语料库这个术语表示可作为语言研究基础的、大量自然出现的语言数据。这些语料库可以由书面语和(或口语)的样本组成,并通常被用来代表一定的语言或语言变体。在计算机出现之前,研究者——特别是词典编纂者,也有语料库,只是规模小、范围窄。近40年来,语料库通常指以电子形式保存的语言材料,并被广泛用于语言研究和语言工程。语料库,就是存放语言材料的仓库。传统上,语言学家用语料库这个术语表示可作为语言研究基础的、大量自然出现的语言数据。这些语料库可以由书面语和(或口语)的样本组成,并通常被用来代表一定的语言或语言变体。在计算机出现之前,研究者——特别是词典编纂者,也有语料库,只是规模小、范围窄。近40年来,语料库通常指以电子形式保存的语言材料,并被广泛用于语言研究和语言工程。
随着计算机功效的成倍增长,语料库在规模、多样性和使用方便等方面都发生了剧烈的变化。与此同时,为了存取和加工语料库所拥有的信息,已经开发了大量专用的软件。计算机语料库迅速成为语言研究的一种普遍资源,现在世界上已经建立了许多规模较大的语料库。随着计算机功效的成倍增长,语料库在规模、多样性和使用方便等方面都发生了剧烈的变化。与此同时,为了存取和加工语料库所拥有的信息,已经开发了大量专用的软件。计算机语料库迅速成为语言研究的一种普遍资源,现在世界上已经建立了许多规模较大的语料库。
定义: • 1.以现实生活中人们运用语言的实例为基础进行的语言研究,称为语料库语言学。(McEnery & Wilson,1996) 2.以语料为语言描写的起点,或以语料为验证有关语言假说的方法,称为语料库语言学。(Crystal,1991)
语料库语言学与“统计语言学”“实证语言学”“计量语言学”有密切关系。是后者的基础性学科。语料库语言学与“统计语言学”“实证语言学”“计量语言学”有密切关系。是后者的基础性学科。 • 语料库语言的哲学基础是经验主义;与此相对的是理性主义、先验主义。语料库的语言研究方法是归纳法、重统计;与之相对的是演绎法,重推理。
语料库语言的发展历史: 1.早期的语料库语言学: 指20世纪50中期以前,即以乔姆斯基提出转换生成语法理论之前的所有语言材料的语言研究。主要运用领域“语言习得”“方言学”“语言教学”“句法和语义”“音系研究”。 1959年夸克着手建立“英语用法调查”语料库; Francis和Kucera开始建立非常著名的“布朗语料库”。费时20年。“Brown Cprpus),以共时原则采订不同主题的英语样本,总规模为一百万词次,目的是研究美国英语。
1975年Jan Svarvik开始建造“伦敦-隆德语料库”(London-Lund Corpus) 2.语料库语言学的复苏: 第二代语料库相继建成。以柯林斯——伯明翰英语语料库(COBUILD)为代表。 LOB语料库(兰卡斯特-奥斯陆-卑尔根语料库),500个样本,每个样本两千词次,总规模一百万词次) 法语语料库:语料的跨度从7世纪到20世纪,包括各种样本两千个,总规模1.5亿词次。
语料库语言学复苏的原因 1.计算机科学的飞速发展与普及应用,为语料库语言学的复苏提供了强大的物质基础。 2.认识到基于统计与基于内省的方法各有所长。“从科学方法的角度,语料库方法是一种更为强有力的研究方法,因为其结果是可以验证的。(Leech,1991)
语料库语言学的研究内容 1.语料库的建设与编纂 (陈原《汉语语言文字信息处理》,上海教育出版社,1997)内收刘连元《现代汉语语料库研制》 A:规划plannign B:设计desing(通用性原则;描述性原则;实用性原则;抽样原则) C:选材selection(语料分类;语料年限;语料描述信息;语料样本;选材细则 D:建库creation E:标注annotation
现代汉语7000万字通用语料库 • 人文与社会科学类语料占语料总量59.6%。 • 自然科学类占17.24%。 • 综合类语料占9.36%。 • 报纸类语料13.79%。
现代汉语7000万字通用语料库 • 核心语料库收入七类不同门类和来源的语料,其中社科1000万字,教材700万字,科普50万字,科幻10万字,应用文10万字,报纸150万字,刊物120万字。 • 社科语料分五个时期,1930-1939年,占5%;1940-1949年,占10%;1950-1965年,占25%;1966-1976年,占5%;1977年至今,占55%。 • 报刊语料也分五个时期:1930-1939年,占5%;1940-1949年,占10%;1950-1965年,占20%;1966-1976年,占5%;1977年至今,占60%。
2.语料库的加工和管理技术 3.语言研究中的语料库的使用 4.语料库语言学在计算语言学中的应用
语料库语言学的对立面 • 介绍一下语料库语言学的对立面: • ( 这时主宰世界语言研究的是乔姆斯基的理性主义,认为语言是人与生俱来的功能与装置。) • 自然语言句子的数量是无限的,是任何有限的语料所不可能穷尽的。语料永远是不充分的。
思考与练习 • 观察一个语料库,分析其语料构成、性质、作用。并进行2-3个专题的查询。查询内容自定。