2.3k likes | 2.48k Views
云南烟草科学研究院 统计研讨 2010.2.2. 试验数据与统计分析. 杨 徳 统计遗传教授 云南农业大学 Tel:13908847257 Email:yangde99@qq.com yangde@public.km.yn.cn.com http//:www.dy999.com. 研讨提纲. 1 试验数据处理 2 方差分析 3 试验的概念及原理 4 科学研究中不同阶段的试验设计 5 相关与回归分析 6 多元统计分析 7 数据分析软件. 1 试验数据处理. 1.1 试验数据的类型 1. 数量数据
E N D
云南烟草科学研究院 统计研讨 2010.2.2 试验数据与统计分析 杨 徳 统计遗传教授 云南农业大学 Tel:13908847257 Email:yangde99@qq.com yangde@public.km.yn.cn.com http//:www.dy999.com
研讨提纲 • 1试验数据处理 • 2方差分析 • 3试验的概念及原理 • 4科学研究中不同阶段的试验设计 • 5相关与回归分析 • 6多元统计分析 • 7数据分析软件
1试验数据处理 • 1.1 试验数据的类型 • 1. 数量数据 • 2. 质量数据 • 1.2 试验数据的整理 • 1. 原始试验数据的核查 • 2. 次数分布表 • 1) 质量数据的整理 • 2) 数量数据的整理
1试验数据处理 • 科学家们在科学试验中进行着知识的生产,重组,扩展,应用的创新活动。试验统计是一门研究如何进行科学试验设计,试验实施,试验数据的收集,试验结果的分析,推断科学结论的科学。正确的试验设计乃是科学试验成功的必要条件,而优良的设计方法及分析技术则可保证试验结果及推断的科学性及可靠性。试验设计虽然仅是统计学中的一门分支学科,但是一个科学家所具备的统计素质,如科学家进行科学试验的设计,分析及推断科学结论的能力,将直接制约着这个科学家的知识创新能力,将直接影响科学家的科学研究效率。
正确设计试验方案并对所获调查数据进行科学的统计分析是每个研究工作者必需具备的基本功。正确设计试验方案并对所获调查数据进行科学的统计分析是每个研究工作者必需具备的基本功。 • 摘自中国科学院资深院士、中国农科院庄巧生研究员为 “试验设计与分析”(杨德,2002,中国农业出版社)一书的序言
1 科研试验数据的整理 • 3.1.1 试验数据的类型 • 1. 数量数据 • 当试验结果显现数量上的变化,由计数测量度量得到的数据资料则称数量数据。 • 由计数法得到的数据为计数数据,是非连续性变量数据,如大豆单株分枝数、生育期天数、玉米果穗上籽粒行数、人体白细胞计数、某车床生产的零件个数等等。计数数据在度量时取值一般为正整数。 • 由测量或度量所得的数据为计量数据,是连续性变量数据。数据通常用长度、重量、体积等单位表示,如人的身高、水稻植株高度、小麦试验小区产量、仔猪的体重、某零件的长度等。计量数据不一定是整数,随着试验者的要求和测量仪器或工具的精度而有不同的有效数字。
2. 质量数据 • 当试验结果显现属性变化,只能分门别类处理,得到的数据则则称质量数据。 • 当数据的各种类别并没有顺序大小差别,仅是属性上名称不同而已,这类数据为称名数据。称名数据可按属性类别进行分组统计次数,有时也称次数数据,如人的男女性别、人的血型、豌豆的花色等,产品的合格与不合格。
当数据的各种类别存在顺序大小的差别,这类数据为顺序数据。如疾病治疗的疗效有痊愈、好转、无效等。顺序数据可按属性类别进行分组统计其次数,有时也可数量化,如植物抗病性可按感病严重程度数量化为0(免疫)、1( 高度抗病)、2(中度抗病)、3(中度感病)、4(高度感病)。经过数量化的质量数据的处理可以参照计数数据的处理方法
1.2 试验数据的整理 • 1. 原始试验数据的核查 • 通过试验获得原始资料数据后,要进行全面检查与核对,保证资料数据的完整,真实可靠,这样才能通过统计分析来反映试验客观情况。必要时,还可采用各种统计诊断方法检查试验数据的各种异常值。
2. 次数分布表 • 1) 质量数据的整理 • 质量数据可根据不同类别进行分组,使各组的界限一目了然。
例3.1 豌豆杂交子二代籽粒性状 • 某豌豆杂交组合子二代(F2)籽粒性状分离有4种类别(表3.1.1),黄色园粒315粒,黄色皱粒108粒,绿色园粒101粒,绿色皱粒32粒, 由此可得次数分布表(表3.1.1)。 表3.1.1 某豌豆杂交子二代籽粒性状的次数分布表(单位:粒)
2)数量数据的整理 • 数量数据可先确定组数、组距、各组的上下限,然后按观察值的大小归组。
例3.2 100株小麦株高调查数据整理现以100株小麦株高调查数据(表3.1.2)为例, 说明整理方法及编制次数分布表的步骤。 • 表3.1.2 “扬麦一号”100株植株高度(cm)
(1)求极差:在样本中最大值与最小值之差称为极差(range),亦称为变幅。从表3.1.2中查到最大观察值为106cm,最小观察值为83cm,极差为106 - 83 =23cm。
(2)确定组数和组距:根据极差分为若干组,组数确定后,还须确定组距,即组距 = 极差/组数。 • 在确定组数和组距时应考虑,①观察值个数的多少;②极差的大小;③便于计算;④能反映出数据的真实面貌等方面,样本容量大小与组数多少的关系可参照表3.1.3 来确定。
例3.2数据样本内观察值个数为100个,查表3.1.3可分为8-16 组,假定分为9组,则组距为: • 组距 = 极差/组数 = 23/9 = 2.56 ≈ 3 • 为了分组方便,以整数3作为组距。
例3.3 试计算例3.2的100株小麦株高的平均数、方差、标准差及变异系数
研讨提纲 • 1试验数据处理 • 2方差分析 • 3试验的概念及原理 • 4科学研究中不同阶段的试验设计 • 5相关与回归分析 • 6多元统计分析 • 7数据分析软件
2 方差分析 • 2.1 完全随机设计试验方差分析 • 例4.1 抗拉强度试验 • 2.2随机完全区组设计试验方差分析 • 例4.12 硬度测试的随机完全区组试验
2.1完全随机设计试验方差分析 • 例4.1 抗拉强度试验 • 某工程师考虑一种增大新型合成纤维抗拉强度的方案。一般抗拉强度受到纤维中棉花百分率的影响,并且如果成品布须具有其它所希望的质量特性(如承受恒压加工处理的能力等),棉花百分率应在10%至40%之间。他决定进行一个棉花含量的单因素试验,此单因素的五个水平分别为15%、20%、25%、30%、35%,并计划重复5次,因此要进行25个样品的试验,抗拉强度在某检测机上测定。考虑检测机可能会存在某种热效应,运行的时间越长,读出的抗拉强度数值越低,则热效应产生的偏倚会破坏试验的有效性,因此工程师决定采用完全随机设计以获得无偏估计。现将25个样品进行编号(表4.1.1)。
例4.1 抗拉强度试验 表4.1.1 抗拉强度试验样品编号
例4.1 抗拉强度试验 • 按随机数产生的一般办法(如由计算器,计算机,查随机数字表等方法产生)得到1~25之间的随机序列为: • 8,18,10,23,17,5,14,6,15,20,9,4,12,7,1,24,21,11,2,13,22,16,25,19,3。 • 现按此随机数序列确定此25个样品试验顺序(表4.1.2)。如随机数序列第1个数是8,则在序列中第1次试验取第8号样品进行抗拉强度的测定,此第8号样本来自棉花百分率20%的一个样品,其纤维样品在测试机上测定的抗拉强度为82.7103Pa。
例4.1 抗拉强度试验 表4.1.2 抗拉强度完全随机设计试验及结果
例4.1 抗拉强度试验表4.1.3 抗拉强度试验数据(单位:103Pa)
表4.1.9 例4.1的LSD法的多重比较结果(字母表示法)
2.2随机完全区组设计试验方差分析例4.12 硬度测试的随机完全区组试验 • 试验采用4支尖头和4个金属样本,每个金属样本作为一个区组看待。在每个金属样本上均用4种不同尖头按随机顺序各检测一次。为了计算方便,现将每一观察值的原始数据中减去9.5后乘以10,由此得到该试验的简化数据(表4.2.3)
例4.12 硬度测试的随机完全区组试验 处理:尖头类型 区组:金属样本,控制系统误差
例4.12 硬度测试的随机完全区组试验 表4.2.4 硬度测试的方差分析
例4.12 硬度测试的随机完全区组试验 表4.2.5 将硬度试验进行错误的完全随机设计分析
研讨提纲 • 1试验数据处理 • 2方差分析 • 3试验的概念及原理 • 4科学研究中不同阶段的试验设计 • 5相关与回归分析 • 6多元统计分析 • 7数据分析软件
3试验的概念及原理 • 3.1 试验的基本概念 • 3.2 试验设计的内容及试验步骤 • 3.3 试验设计的原理
3试验的概念及原理 • 3.1 试验的基本概念 • 3.1.1 总体与样本 • 3.1.2 试验因子、水平、处理 • 3.1.3 试验单元、抽样单元、测量单元、重复、区组 • 3.1.4 试验误差 • 3.1.5 试验误差的分类 • 3.1.6 精密度、正确度、精确度 • 3.1.7 提高试验精确度的主要途径
3试验的概念及原理 • 3.1 试验的基本概念 • 3.1.1 总体与样本 • 个体(individual)是研究对象中可以单独观测和研究的一个物体或一定量的材料。它是组成总体的基本单元。具有共同性质的全部个体就组成了总体(population)。总体又称为群体。总体可分为有限总体和无限总体。个体有限的总体称为有限总体,如某田块的玉米植株群体,某大学的男青年群体。个体无限的总体称为无限总体,如长江流域推广种植的某小麦品种植株群体,某省农田中某类昆虫群体。而群体中某株小麦或某个青年就是该群体的一个个体。
3.1.1 总体与样本 • 要研究总体的性质,由于总体的个体数目过大或者试验中测定项目的费用成本高等原因,一般情况下无法将总体中的全部个体一一取出进行调查或研究。当按一定程序从总体中抽取的一组个体时,称此组个体为该总体的一个样本(sample)。当按随机程序抽取所获得的样本则称为随机样本(random sample)。在本书中,除特别说明外,一般提及的样本均指随机样本。从总体中抽取样本则称为抽样(sampling)。样本中所包含的个体(或抽样单元)的数目则称为样本容量(sample size)。一般研究中,样本容量在30个以下为小样本,30个以上为大样本。 • 对群体所考察的定性或定量指标称为特性或性状。例如男青年的身高、小麦品种群体的株高。个体观察结果的性状值称观测值。如某男青年的身高为173cm。
3试验的概念及原理 • 3.1 试验的基本概念 • 3.1.2 试验因子、水平、处理
3.1.2 试验因子、水平、处理 • 影响科学试验结果的因子往往很多,但进行试验时,仅能挑选少数几个因子进行试验,因此试验中安排的因子称为试验因子(experimental factor)或试验因素,而未在此次试验中安排的因子则统称为非试验因子。在安排试验中,每个因子的某种具体措施则称为该因子的某种水平(level)。例如抗拉强度试验中(例1.4)仅安排了棉花百分率试验因子,该试验是单因子试验,而5种棉花百分率为该因子的5种水平。菜用大豆品系比较试验(例1.3)也是考虑品种的单因子试验,9个品种称为品种因子的9水平。在化学反应的转化试验中(例1.8)有2个试验因子,第1个因子为反应物浓度(A),并分为15%和25%的2个水平,而第2个因子为催化剂(B),也分为添加1包和添加2包催化剂的2个水平。非试验因子一般都固定在同一水平上,以确保试验条件一致并构成了整个试验的背景。
3.1.2 试验因子、水平、处理 • 在多因子试验中,不同因子的不同水平的组合则称为处理(treatment)。在化学反应的转化试验中(例1.8)有2个因子2个水平,可得到4种不同组合,则该试验就有4个处理,即a1b1 、a2b1 、a1b2 、a2b2。而在单因子试验中,该因子的不同水平亦可称为处理。如在大豆品系试验中,则9个水平即为9个处理。
例4.1 抗拉强度试验表4.1.3 抗拉强度试验数据(单位:103Pa)
例1.3 9个大豆品系随机完全区组试验田间排列图
3试验的概念及原理 • 3.1 试验的基本概念 • 3.1.1 总体与样本 • 3.1.2 试验因子、水平、处理 • 3.1.3 试验单元、抽样单元、测量单元、重复、区组
3.1.3 试验单元、抽样单元、测量单元、重复、区组 • 试验中实施试验处理的基本对象则称为试验单元(experimental unit)。如在田间试验中的试验小区(plot);在生物、医学试验中的小白鼠、医院病人等;在工业试验中的反应器、车床等。在试验单元上确定试验结果的收集抽样方式的基本对象称为抽样单元(sampling unit)。如调查试验小区的植株、如病人的血液样品。在抽样单元上确定试验结果的测量方式的基本对象称为测量单元(metric unit)。即收集测量数据的单位及尺度,如植株的株高、穗长、病人血样中的血小板数、血色素含量等。在一些试验中,试验单元、抽样单元、测量单元完全一致,如猪饲料试验中(例1.4)三种单元均为每头猪。