450 likes | 664 Views
不同语言研究阶段的不同方法运用. 一 . 获得语料 通过观察获得语料的方法 通过实验获得数据的方法 二 . 处理数据 描写统计语料的方法 推断统计语料的方法 三 . 储存、查询语料 储荐语料的方法 查询语料的方法. 获得语料. Ⅰ 通过调查获取语料的方法. 厦门大学中文系 苏新春. Ⅰ 通过调查获取语料的方法. 举例法 田野调查法 个案调查法 社会学调查法 不同语言成分鉴别法 抽样方法 语言态度调查. 举例法. 最常用、最普遍,也最经济、省力的方法,然而局限性也最大。 主要局限: 主观性强; 缺乏普遍性; 以偏概全;.
E N D
不同语言研究阶段的不同方法运用 一.获得语料 • 通过观察获得语料的方法 • 通过实验获得数据的方法 二.处理数据 • 描写统计语料的方法 • 推断统计语料的方法 三.储存、查询语料 • 储荐语料的方法 • 查询语料的方法
获得语料 Ⅰ 通过调查获取语料的方法 厦门大学中文系 苏新春
Ⅰ 通过调查获取语料的方法 • 举例法 • 田野调查法 • 个案调查法 • 社会学调查法 • 不同语言成分鉴别法 • 抽样方法 • 语言态度调查
举例法 • 最常用、最普遍,也最经济、省力的方法,然而局限性也最大。 主要局限: • 主观性强; • 缺乏普遍性; • 以偏概全;
田野调查法 • 调查者将自己融入被调查者的群体生活中,真实地观察、记录被调查者的语言状态。 1.方言调查。调查点、发音人…… 2. 口语调查(陈建民的北京口语: 从70年代中期开始,陈建民开始对北京口语的研究,提着录音机到北京的工厂、农村、部队、学校和街道录取口语材料,先后写成了《说和写》(1979)、《小学口语教学》(1981),《汉语口语》(1984)则是这一研究的总结。
个案调查法 儿童语言习得调查(李宇明): 《儿童语言的发展》(95年6月)、《语言的理解与发生》(98年5月)。后者以汉语的问句系统为材料,综合运用群案横向实验和个案纵向观察的方法,深入考察了汉族儿童语言理解和语言发生问题,概括出许多有关儿童语言发展的规律,并提出了一些富有启发性的语言学、发展心理学和认知科学理论问题。
病理语言学的病例研究: 杨亦鸣(徐州师范大学)这方面的系列论文。 基于神经语言学的中文大脑词库初探,语言文字应用,2000年第3期
杨亦鸣认为神经语言学的发展可以分为三个时期。杨亦鸣认为神经语言学的发展可以分为三个时期。 • 1861年法国外科医生布罗卡发现了大脑中专管语言功能的布罗卡区,神经语言学的研究由此起步。早期关注神经语言学研究更多的是神经学家和心理学家,而且他们的研究并没有用语言的理论进行指导。 • 在二十世纪初到二十世纪七十、八十年代神经语言学进入了独立发展的阶段,这时的神经语言学研究具有了语言学目的。索绪尔的《普通语言学教程》提到了语言学的生理基础,涉及到了神经语言学的一些内容。布拉格学派的雅克布逊是最早用语言学理论观照神经语言学的人。 • 从二十世纪末到现在,乔姆斯基的转换生成理论和新兴神经语言学的各种研究方法为神经语言学的成熟和发展做出了杰出的贡献。当神经学家,语言学家,心理学家和计算机学家等开始共同研究神经语言学的时候,神经语言学也发展到了它的较高水平。目前我国的神经语言学恰恰是处在这个阶段。
社会学调查法 王立的“词”的社会学调查:《汉语词的社会语言学研究》,商务印书馆,2003 基于的事实:对“词”的看法不统一;专家与百姓的看法差异巨大 • 语感中的“词”: • 社团对“词”的感知: • 社团对“字”与“词的感知: • 社团对构词范式的感知:
检测一:“双音节动宾式结构” 语料来源:《初级汉语课本》等六种。用汉语拼音书写,通过“连写”、“分写”、“或分或连”的形式来检查,按“连写/分写”频率分布的高低测量公众词感倾向的强弱。
调查问卷 • 请您用汉语拼音将下列句子拼写出来,请注意以词为拼写单位。 1.今天上班,听说小李结婚,下班后,我和小张同路去她家。一转身,看到来讲学的王教授,请他一同去做客。他说晚上要开会,讨论飞船落地问题,只好明天再见面。 2.小明每天睡觉前用凉水洗澡。
调查对象 • 调查样本是以整群抽样方式从武汉市的大中小学校抽取出来的,由10所不同学历层次学校的40个班级组成。
调查结果 • 95%左右的调查对象认为双音动宾结构为“词”,……与专家的词感形成了明显的对比。专家的词感来源于理性判断,偏重于语法上的各种鉴定词的方法或者是意义的整体性,而汉语社团一般成员则主要依靠语言直觉来判断词与非词,这种“感知主要来自于对词的语音形式(节奏)的感知,判断同一结构形式是词或非词,依据的主要是语流进行中音节间自然的停连,只要两个音节间无语音停顿,且语义上该两音节又可与其前后音节离析,一般人就将其视为词“。 P127
检测二:对词的识别 • 给出一些语料,请被访者进行“词”的识别。 • 钢花、胡萝、高山、鹅掌、树洞、他人、河脚、外心、佳肴、本意、键关、多棱、土气、万物、班星 • 不被认为是词:胡萝、河脚、键关、班星
不同语言成分选择法 语言因来源不同,口语-书面语;古词语-外来词;通用语-方言词,等都有所不同 • 现代汉语语法研究 王力的《中国现代语法》,选择的语料是《红楼梦》、《儿女英雄传》 • “现代汉语口语语法演变史” 选择的语料:老舍——戏剧作品中的对白,而不是叙述文。
抽样方法→随机抽取 • 这里所说的“随机”并非指样本中的事件是偶然的、完全无序的,而是指按照步骤来构靠样本,使得总体中的每一元素都有一定的被选中的概率。 • 防止实验偏倚的最佳方法是按照随机抽样的步骤去做。这样我们就有理由相信,从样本值到总体值的推断是合法的。反之,就无法确信我们从中得到的估计是否可能接近于所关注的总体值,因而任何概括都是值得怀疑的。
意义与目的: • 要调查的总体数量太多太大,投入的成本有限,不可能也没有必要对总体的每个成员都作调查;尽量客观地通过有限的个体来发现普遍的规律; 方法: 要使获得数据具有代表性,就要做好以下三方面工作: • 对样本总体作出判断(确定获得数据的范围); • 分层抽样; • 获得样本个数的抽样;
对样本总体作出判断(确定获得数据的范围) • 了解大学生的语言特点: 选几年级的? 哪个省的? 住校还是走读?
分层抽样 • 了解大学生的语言特点: 文理科分系选择; 同系按年级选: 每个年级按学号选;
获得样本个数的抽样:1.等距法。 步骤 • excel-工具-数据分析-随机数发生器-分布:模式,产生10000个序数; • excel-工具-数据分析-抽样-周期:间隔5,产生等距随机数;
2.随机数 步骤: • excel-工具-数据分析-随机数发生器-分布:模式,产生10000个序数; • excel-工具-数据分析-抽样,产生1000个随机数; • 检验方法:用数组方式:=frequency(),()
3.随机数发生器 公式 • =rand() • =randbetween(bottom,top)
例一: 词的结构与载义量研究;
例2:数据库中词长的总体数据与抽样数据对比:例2:数据库中词长的总体数据与抽样数据对比:
随机调查例 中国社科院实验语音室林茂松、李爱军的方言普通话调查(2003-12) • 主要考虑年龄: • 在厦门居住年限:
随机数与语料调查 • l条件概率:在有条件限制之后的某种情况出现的概率,叫作条件概率。 • l随机变量:我们不能有把握地预期它的值,只能在抽样实验或某种游戏的结果出来之后才能确定它的值。 一.分布 统计表 统计图
例:《现代汉语词典》的词长、义项数、每页词条数例:《现代汉语词典》的词长、义项数、每页词条数 • 页距随机抽样; • 随机数抽样: • 页数、行数、字数抽样 一.分布 统计表 统计图
统计分析内容主要分两部分:描写统计与推断统计。统计分析内容主要分两部分:描写统计与推断统计。 一.描写统计中,主要介绍资料的整理、分类和简化或特征研究。 常用的方法有次数(频数)分布、统计图、统计表、集中趋势测量法、离散趋势测量法等 二.推断统计中,主要介绍参数估计、假设检验、回归、方差、相关等。
要点 • 一.主要参考文献 • 二.EXCEL和SPSS • 三.数据描写:
一.参考文献 • 《语言研究中的统计方法》Anthony Woods Paul Fletcher Arthur Hughes著,陈小荷等译。北京语言文化大学出版社,2000,4 • 《统计分析与SPSS的应用》,薛薇,中国人民大学出版社,2001,11 • 《SPSS for Windows从入门到精通》,卢纹岱等,电子工业出版社,1997,6
二.主要学习软件: Excel和SPSS • Excel是优秀的电子表格软件,有着非常强大的计算功能,俗称“电算软件”。它内藏的运算函数非常广泛,分属于数学、统计、财务、货币、文本、数据库、逻辑、工程等领域。对Excel的学习和使用,可以通过一些基本功能的掌握以达到入门级的应用,也可以进行很专精的功能挖掘与开发。 • 已经成为与数字分析有关专业必须学习和掌握的应用软件。
Excel主要功能 • 计算功能 • 文字处理功能 • 图表能力(100多种图表) • 图形功能(绘图) • 数据分析 • 链接与合并计算功能 • 数据的地图化 • 数据库功能 • 宏语言
Excel处理文字的独特功能 • Excel有关文字的处理与Access相比,有许多不同之处,甚至是受到限制的地方。如容量太小,显示界面变化不多,但也有几点是有独特长处,甚至有替代性功能的。如 • 可以方便地对前后行进行调整; • 对调整后的行数可以很方便地用拖拉的方式进行新的排序; • 输入的文字如果是本次操作中前面已经输入过的文字,在录入时会自动显示,按回车就会自动输入到单元格; • 可以以单元格为单位对文字进行排版。
Excel函数:数百个 • 财务: 日期与时间: • 数学与三角函数: 统计: • 查找与引用: 数据库: • 文本: 逻辑: • 信息: 用户定义: • 工程:
Excel以行、列的表格方式存在,单元格用于存放数值。单元格是Excel非常重要的一个组成部分,是运算的基本单位,每一个单元格都可用专门的名称来定位。定位的方法好似地图上的经纬度。Excel以行、列的表格方式存在,单元格用于存放数值。单元格是Excel非常重要的一个组成部分,是运算的基本单位,每一个单元格都可用专门的名称来定位。定位的方法好似地图上的经纬度。
Excel文件以.xls后缀存放。每个工作表最多可有256列65536行。Excel文件以.xls后缀存放。每个工作表最多可有256列65536行。 • 单元格:256*65536=16.777.216 • “B2”表示的是B列第2行,“H5”表示的是H列第5行。在单元格上凝集了许多设定,只要录入了文字或数字,就可以进行运算。 • 可对单元格进行数据类型的限定。需要设定时把鼠标移到该字段,点击右键,选择单元格属性。默认值可以设定,在菜单\工具\选项\编辑中对选项做出选择。
公式的五种元素 • 运算符: • 工作表函数 • 参数: • 单元格引用: • 括号: • =SUM(A1:A10)
Excel的计算功能值得好好学习,也要费很大的气力去学习。掌握了它的强大而灵活的计算功能,用来支持对数据库的强大查询能力,把数据库中查询出来的数据放到Excel中来进行运算,就能很快获得计量结果。Excel的计算功能值得好好学习,也要费很大的气力去学习。掌握了它的强大而灵活的计算功能,用来支持对数据库的强大查询能力,把数据库中查询出来的数据放到Excel中来进行运算,就能很快获得计量结果。 • Excel是一个非常值得学习的计算软件,市面上有许多介绍它的书,简单的100-200页,详细的厚达800-900页。
SPSS • Statistical Package for Social Science。 • (社会科学统计分析软件包) • 目前人文科学研究中最具影响力的统计分析软件。 • 在我国,它在其强大的统计分析功能、方便的用户操作界面、灵活的表格式分析报告及其精美的图形展现,受到统计分析人员的喜爱。成为统计学、财经学、管理学等学生的必修课。
目前:SPSS(Statistical Package for the Social Science)。它的单元格作用可能是没有Excel灵活与多样,对数据的增、删、调整也没有那么方便,对数据的处理与对数据的存储也不像Excel那么是合在一起,但对纯数字的数值关系的分析却极为强大。它是目前人文科学研究中最具影响力的统计分析软件。
三.数据描写:常用数据描写的函数 • 最大数:max • 最小数:min • 总数:sum • 平均数:average • 众数:mode • 中数:median • 计算有内容的单元格的数量:count • 计算无内容的单元格的数量:countblank • 计算符合条件的单元格的数量:countif
10.百分比排位:percentrank 11.排序:rank 12.四分数:quartlie 13. 分组频率:frequency(data_array,bins_array)
练习 • 对本班一个学期内各科成绩进行统计分析,以观察学习状况和效果