420 likes | 605 Views
福师 《 生物统计学 》1108 次考试批次视频串讲. 主讲人:孙中亮. 《 生物统计学 》. 第一部分:基本理论 绪论 生物统计学 第一章 数据与特征数 第二章 概率与分布 第三章 概率分布律 第四章 抽样分布
E N D
福师《生物统计学》1108次考试批次视频串讲 主讲人:孙中亮
《生物统计学》 第一部分:基本理论 绪论 生物统计学 第一章 数据与特征数 第二章 概率与分布 第三章 概率分布律 第四章 抽样分布 第二部分:基本方法 第五章 均数差异显著性检验 第六章 参数估计 第七章 卡方检验 第八、九章 方差分析 第十、十一章 相关与回归 第十二章 实验设计的原则
考试形式 • 选择填空 15% • 统计类型 10% • 计算题 20% • 操作题 25% • 问答题 30%
绪论 【假设检验】 [实验及结果] 实验组服用金花清感方,痊愈率95.3%; 对照组不服药,痊愈率89.1%。 [张三的推断] 由于实验组痊愈率高于对照组,所以药有效。 目的:比较总体特征之间有无差异 原理:先假设总体特征之间无差异 再分析在此情况下是否也会出现“实验所观察到的结果” 若不会出现,则判定所比较的总体特征之间有差异; 若也会出现,则判定所比较的总体特征之间无差异; 实例分析:在药无效情况下不会出现这样的结果,则药有效; 在药无效情况下也会出现这样的结果,则药无效。 常见错误:没有进行假设检验 • 知识点回顾: (1)总体和样本 总体是根据研究目的确定的所要研究的所有对象;样本是试验观察到的所有对象;样本是总体的一部分。 注意:两者特征值和参数的表示形式不同,分别用希腊字母和拉丁字母表示。 (2)生物统计学 应用数理统计原理,根据样本特征推断总体特征。常见的错误:没有经过数理统计,直接得出总体特征等同于样本特征。 (3)假设检验 目的,原理,常见错误
例题 11、根据假设检验原理,如果在假设的、总体特征______的总体中不能抽到所观察到的样本特征,则判定所要比较的总体特征______。 A、有差异,有差异B、有差异,无差异C、无差异,有差异D、无差异,无差异 【解析】可理解为假设相同,若与观察结果不符,则推翻原假设。 【基本原理】假设检验,首先是对研究的总体提出假设,在此假设下构造合适的统计量,并由统计量的抽样分布计算样本统计量的概率。根据估计出的统计量的概率值大小,做出接受或否定原假设的推断。
第十二章:实验设计的原则 • 知识点回顾: (1)影响因素 处理因素是想要研究的因素;非处理因素除研究的因素外,其他对结果有影响的因素。 [实验及结果] 张三亲眼观察到李四服用某秘方后痊愈了。 [张三的推断] 实践是检验真理的唯一标准。“吃药后病好了” 这个实践结果验证了“该秘方有效”是真理。 • 影响因素 概念:处理因素——想研究的因素 非处理因素——其它影响因素,不可避免。 实例分析:处理因素——某秘方 非处理因素——其它药物、自愈、不明原因… • 确定结果出现的原因 注意:结果既可能是处理因素、也可能是非处理因素导致的 正确方法:只有排除非处理因素导致结果发生的可能, 才能确定结果是处理因素导致的。 常见错误:没有排除非处理因素导致结果发生的可能 3、假设检验就是先确定______是否可能导致结果的发生。然后再依此得出______的结论。 A、处理因素,结果是否发生 B、处理因素,处理是否有效 C、非处理因素,结果是否发生 D、非处理因素,处理是否有效 【解析】在实验设计中,有意识地安排一些重要的非处理因素,使它们的水平出现有规律的变化,以便尽可能的消除它们对实验结构的影响,更好地显露出处理因素的效应大小。
(2)实验设计 目的:突出处理效应、消除条件效应、评估误差效应。 原则:对照(突显处理效应,消除条件效应)、重复和随机化(消除条件效应,评估误差效应)。 常见错误:选择错误特征——无法体现处理效应 缺乏对照——无法体现处理效应 臆想对照的特征——无法体现处理效应 条件不一致——无法消除条件效应、误为处理效应 未重复——无法评估误差效应、误为处理效应 人为选择观察对象——无法消除条件效应 [实验及结果] 传统药物已经使用几千年了。 要是无效,人类早就死绝了。 [张三的推断] 人类繁衍至今的事实证明了药有效。 [所犯错误] 选择错误特征——无法体现处理效应(人的死亡与否不能反应药物是否有效;服药后病况有所改善且不服药病就不能好,才可以证明此药的疗效) 臆想对照特征——无法体现处理效应(有些症状不经药物治疗也可以痊愈)
例题 14、关于实验设计的随机化原则,错误的叙述是 。 A、从总体中抽取样本时必须遵循随机化原则 B、在人群中不是随机抽取、而是挑选20~25岁的人作为实验对象,这违背了随机化原则 C、违背随机化原则,就无法正确评估误差的大小、无法确定处理是否有效 D、违背随机化原则,处理因素可能与条件因素发生叠加、从而无法确定处理是否有效 【解析】“在人群中不是随机抽取、而是挑选20~25岁的人作为实验对象”并不违背随机化原则,可以把年龄作为一种区组因素考虑。通过样本来推断总体是统计分析的基本特点。只有从总体中随机抽取的样本才具有代表性。若研究的对象并不是全部年龄段的人群,而只是20-25岁之间的年轻人,那么在这样的一个群体中随机抽样,也是正确的。 问答题:随机化的原则、目的;违背随机化原则可能导致的后果? 【参考】实验设计必须遵循随机化,其原则是若干对象随机分配到各组进行实验或从总体中随机抽取若干对象进行观察;目的是消除条件效应,评估误差效应;若违背随机化的原则,可能导致的后果是无法正确评估误差大小;导致“人为选择”与处理因素叠加。
基础理论部分 • 知识点回顾: (1)数据类型 连续型数据(度量数据):特定区间内的任何值都可能出现;离散型数据(计数数据):只可能是整数而不可能是小数。 1、在特定区间内任何值都可能出现的数据称为______数据。 A、定性B、计数C、连续型D、离散型 【解析】:连续性变数资料:这种资料的各个观察值不一定是整数,两个相邻的整数间可以有带小数的任何值出现,其小数位数的多少由度量工具的精度而定,它们之间的变异是连续的。离散型数据只可能是整数而不能是小数。 (2)特征数 度量 数据集中点的度量——平均数 数据变异程度的度量——标准差 数据分布的对称程度的度量——偏斜度 数据分布的陡峭程度的度量——峭度 5、CV用于度量。 A、数据的集中点B、数据分布的对称程度 C、数据的变异程度D、数据分布的陡峭程度 【解析】:平均数是资料的代表数,其代表性的强弱受资料中各观察值变异程度的影响。变异系数CV是标准差相对于平均数的百分数,是数据变异程度的度量。
(3)小概率原理 小概率事件在1次试验中几乎不会发生;显著性水平α:人为设定的小概率标准。如默认显著水平α1=0.05、极显著水平α2=0.01。 5、根据小概率原理,______小概率事件实际上不会发生。 A、在n次试验中 B、当n足够大时 C、在1次试验中D、不论进行多少次试验 【解析】统计假设检验就是根据小概率事件的不可能性原理来决定是不是要接受或者推翻原假设,因此,对于小概率事件的理解一定要准确,即在1次试验中几乎不可能发生。 (4)单尾检验 上尾检验:用于比较未知参数是否大于已知参数时。 若p(X>x)<α,则认为在1次抽样中x实际是抽不到的,判定未知参数大于已知参数。 下尾检验:用于比较未知参数是否小于已知参数时。 若p(X<x)<α,则认为在1次抽样中x实际是抽不到的,判定未知参数小于已知参数。 9、若得出m1与m2存在“差异极显著”,表示______。比较m1是否大于m2时,若得出“无显著差异”,表示______。 A、“m1与m2的值存在差异”的可能性极大,m1=m2 B、“m1与m2的值存在差异”的可能性极大,m1 ≤m2 C、m1与m2的值相差极大,m1=m2 D、m1与m2的值相差极大,m1 ≤ m2 【解析】在差异性水平上,默认α=0.05是显著水平;α=0.01是极显著水平。在反应形式上是极显著水平左上方两颗星,显著水平左上方一颗星。
(5)概率分布律 在1次随机试验中可能出现哪种结果是随机的,但不同结果出现的概率是有规律的,称为概率分布律。确定了概率分布律,就获得了所有结果的概率。 3、_____分布的概率函数为:。它是在n次试验中某结果_____的概率。 A、二项,恰好出现x次B、二项,出现x次及x次以上 C、泊松,恰好出现x次D、泊松,出现x次及x次以上 【解析】二项分布的定义已经在知识点中说明。泊松分布是一种可以用来描述和分析随机地发生在单位时间或者空间里的稀有事件的分布。作为一种离散型随机变量的概率分布,其均值和方差是相等的,这是泊松分布的一个显著特点。 5、若X~N(4, 9),则表示X服从______分布,其总体标准差为______。 A、二项,9 B、二项,3 C、正态,9D、正态,3 【解析】正态分布是一种常见的连续型随机变量的概率分布。正态分布的曲线是以参数μ和σ2的不同表现为一系列的曲线,所以正态分布曲线是一个曲线簇,不是一条曲线。参数μ是正态分布的位置参数,σ2是性状参数。σ2表示总体的变异度,越大曲线越“胖”,表明数据比较分散;越小表明数据越集中在平均数μ的周围。
4、 (6)抽样分布 指统计量的概率分布。如:样本平均数 的分布、 的分布、 的分布、F分布、χ2分布等。 1、统计量的分布是______。 A、正态分布 B、二项分布C、随机分布D、抽样分布 【解析】研究总体与从中抽取的样本之间的关系是统计学的中心内容,对这种关系的研究可从两个方面着手:一是从总体到样本,这就是研究抽样分布的问题;二是从样本到总体,这就是统计推断的问题。统计推断是以总体分布和抽样分布的理论关系为基础的。 4、样本均数之差的分布服从______。 A、正态分布B、F分布 C、c2分布D、t分布 【解析】样本平均数的抽样分布服从或者逼近正态分布。因此,两个样本的平均数之差也是服从或者逼近正态分布。
第五章:均数差异性检验 • 知识点回顾: 单个样本均数的差异性检验:这是检验某一样本平均数与一已知总体平均数是否有显著差异的方法。即检验无效假设H0和备择假设H1的问题,具体的方法有u检验和t检验。 两个样本平均数的差异性检验:就是由两个样本平均数之差,去推断两个样本所在的总体的平均数之间是否存在差异,实际上就是检验两个处理的效应是否一样。 7、判断是否时,必须进行双侧检验。 A、μ1>μ2 B、μ1≥μ2 C、μ1<μ2D、μ1≠μ2 【解析】选用双侧检验还是单侧检验,应根据专业的要求在试验设计的时候就确定下来。一般而论,若事先不知道μμ0谁大谁小,为了检验两者之间是否有差异,则用双侧检验;如果凭借一定的专业知识和经验,推测μμ0不会相等,为了检验两者谁大谁小应该选择单侧检验。 10、当作出“差异”的结论时可能犯I型错误,犯错误的概率用表示。 A、不显著,B、不显著,C、显著,D、显著, 【解析】统计假设检验是根据小概率事件的实际不可能性原理来决定是否接受原来的假设,因此作出任何的判断都是有一定的错误风险的。如果非真实差异错判为真实差异,就是第一类错误,犯错的概率为显著水平α;若把真实的差异错判为非真实的差异,即是第二类错误,犯错的概率为β。
第六章:参数估计 知识点回顾: • 1. 点估计:用某一个样本统计数直接估计相应的总体参数。 • 2. 区间估计:在一定概率保证下,结合抽样误差,估计出参数可能出现的一个范围(区间),使绝大数该参数的点估计值都能够包含在这个区间内,这种估计参数的方法叫做参数的区间估计,所给出的这个区间叫做置信区间。 3、用于估计一个参数的估计量有多种。其中,具有______的为最优估计。 A、无偏性B、有效性C、相容性 D、都必须 【解析】样本统计量具备的三个原则:无偏性、有效性、相容性。
第七章:卡方检验(计算题) 知识点回顾: • 1. 所谓非参数统计,就是对总体分布的具体形式不必做任何限制性假定和不以总体参数具体数值估计或者检验为目的的推断统计,这种统计主要用于对某种判断,或假设进行检验,故称为非参数检验。 • 2. 拟合优度检验是检验来自总体中的一类数据其分布是否与某种理论分布相一致的统计方法。 • 3. 独立性检验是根据次数资料判断两类因子彼此相关或相互独立的假设检验。 5、拟合优度检验的自由度为_____。若_____就要使用有矫正的公式计算c2值。 A、df=(R-1)(C-1),df=1 B、df=k-1,df=1 C、df=(R-1)(C-1),df>1 D、df=k-1,df>1 【解析】卡方分布用于进行次数分布的拟合优度检验时有一定的相似性,为使这类检验更加确切,一般需要注意以下几点: ⑴总观察次数n应较大,一般不少于50. ⑵分组数最好在5组以上。 ⑶每组的理论次数不应太少,至少为5,尤其是首尾各组,若理论次数少于5,最好将其与相邻的组合并为一组。 ⑷自由度为1时,应计算校正的c2值。
计算题——拟合优度检验 例:(v+v)×(v+v)的后代有正常翅(显性)和残翅(隐性)2种表现型。 观察392个后代,其中正常翅311个。问:是否符合分离律? (1)H0:O-T=0 (2)已知:k=2,a1=0.05,a2=0.01 计算用表 (3)df=k-1=2-1=1,查《c2分布的上侧临界值(ca2)表》得: 单侧c20.05=3.841,单侧c20.01=6.635 (4) (5)∵c2<c20.05,∴p>0.05, 结论:与分离率无显著差异。 =3.704
计算题————拟合优度检验 例7-1纯合的黄圆与绿皱豌豆杂交、F1代自交。观察F2代556粒,其中黄圆315粒、黄皱101粒、绿圆108粒、绿皱32粒。问:是否符合自由组合律? 解:(1)H0:O-T=0 (2)已知:k=4,a1=0.05,a2=0.01 计算用表 (3)df=k-1=4-1=3;查《χ2分布的上侧临界值( )表》得=7.815、=11.345 (4) ) (5)∵ χ2< ,∴ p>0.05 结论:符合自由组合律。
计算题——独立性检验 例:为了解中药“金花清感方”能否改善甲流患者的症状, 设实验组102人口服“金花清感方”,症状改善率为95.1%; 设对照组103人不服药,症状改善率为89.3%。 问:“金花清感方”能否提高症状改善率? (1)H0:O-T=0 (2)已知:R=2,C=2, a1=0.05,a2=0.01 (3)df=(R-1)(C-1)=(2-1)(2-1)=1 查临界值表得: c20.05=3.841,c20.01=6.635 (4) =1.642 (5)∵c2<c20.05,∴p>0.05,结论:“金花清感方”不能提高症状改善率 计算用表
计算题——独立性检验 • 例:用射线1照射3570个细胞,有192个出现畸变; • 用射线2照射3616个细胞,有319个出现畸变; • 用射线3照射3814个细胞,有194个出现畸变。 • 问:不同射线所引起的畸变数有无差异? • (1)H0:O-T=0 • (2)已知:R=3,C=2 • a1=0.05,a2=0.01 • (3)df=(R-1)(C-1) • =(3-1)(2-1)=2, • 查c2临界值表得: • c20.05=5.991, c20.01=9.210 • (4) • =52.543 • (5)∵c2>c20.01,∴p<0.01 结论:不同射线所引起的畸变数有极显著差异 计算用表
第八九章:方差分析(操作题) 知识点回顾: 方差分析的最大功用在于: (1)它能够将引起变异的多种因素的各自作用一一剖析出来,做出量的估计,进而辨明哪些原因是起主要作用的,哪些原因是次要作用的。 (2)它能充分应用资料提供的信息将试验中由偶然因素造成的随机误差无偏地估计出来,从而大大提高了对实验结果分析的准确性,为统计假设检验的可靠性提供依据。 3、比较多个总体平均数时,若采用多个t检验会______犯I型错误的概率。因此应采用______。 A、提高,u检验B、提高,方差分析 C、减少,u检验D、减少,方差分析 【解析】使用t检验会增加犯一类错误的概率,主要原因:一是导致变异的各种因素所起作用的大小量的估计不准确;二是因为没有考虑相互比较的多个处理均数依其大小顺序排列的秩次距问题。
操作题——数据输入 三种原料、三种温度发酵的酒精产量已输入工作表(如右表)。要求判断温度因素、以及原料与温度的交互作用是否影响产量。 请在以下对话框中填入需要输入的内容:
操作题——下结论 三种原料、三种温度发酵的酒精产量已输入工作表(如右表)。要求判断温度因素、以及原料与温度的交互作用是否影响产量。操作结果见下表。 原料因素: p = 结论: 0.040 原料对产量有显著影响
第十十一章:相关与回归(操作题) 知识点回顾: 1. 自变量:在回归分析中,常把可以控制或者能够精确观察,或比较容易测定的变量,常用x表示。因变量:把另一个与x有密切关系,但是取值却具有随机性的变量称为因变量,常用y表示。 2. 意义 :相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。 3. 相关系数r与回归系数b :r与b的绝对值反映的意义不同。r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。 3、如果T对W存在______关系,则T______。 A、相关,自变量B、相关,因变量C、回归,自变量D、回归,因变量 【解析】注意函数和回归的区别,前者是存在确定的因变量与自变量相对应;后者是存在因变量的分布与自变量对应。另外,在书写格式上,是“因变量对自变量存在回归关系。” 6、相关系数的值在______之间。其绝对值越大则相关关系越______。 A、+∞~-∞,强B、+∞~-∞,弱C、+1~-1,强D、+1~-1,弱 【解析】相关系数表示两个变量之间关系密切程度及性质的指标。越大表明关系越密切。
操作题————线性回归 不同NaCl含量(g·kg-1)的土壤上生长的植物叶片单位面积干重(mg·dm-2)如下表。 已知含盐量与干重呈线性关系。求直线回归方程。 请将数据按照Excel所要求的格式输入工作表中:
不同NaCl含量的土壤上生长的植物叶片单位面积干重输入Excel工作表后,下一步应点击Excel的__工具____菜单的“数据分析”。在下图所示的数据分析对话框中选择的分析工具是:不同NaCl含量的土壤上生长的植物叶片单位面积干重输入Excel工作表后,下一步应点击Excel的__工具____菜单的“数据分析”。在下图所示的数据分析对话框中选择的分析工具是: _回归____。
不同NaCl含量(g·kg-1)的土壤上生长的植物叶片单位面积干重(mg·dm-2)已输入Excel工作表。请在以下对话框中填入需要输入的内容。不同NaCl含量(g·kg-1)的土壤上生长的植物叶片单位面积干重(mg·dm-2)已输入Excel工作表。请在以下对话框中填入需要输入的内容。 为判断土壤含盐量与叶片干重的关系,操作结果见下表。
如何下结论: 相关系数为:__0.929_____________。a=__A___(A、81.786 B、11.161)。 回归方程为:__ŷ=81.768+11.161x_____________________________________。 方差分析:p=__0.002_____。回归__C___(A、不显著 B、显著 C、极显著)。 α的95%置信区间:_67.057~96.515_。β1的95%置信区间:__6.054~16.267__。
在NaCl含量为0.8、1.6、2.4、3.2(g/kg)的土壤上试种烟叶。采收时,每种土壤上各采集7株,测量各株的单位面积叶片干重(数据略)。问:不同NaCl含量土壤的烟叶单位面积干重有无差别?在NaCl含量为0.8、1.6、2.4、3.2(g/kg)的土壤上试种烟叶。采收时,每种土壤上各采集7株,测量各株的单位面积叶片干重(数据略)。问:不同NaCl含量土壤的烟叶单位面积干重有无差别? 单因素方差分析
在NaCl含量为0、0.8、1.6、2.4、3.2、4.0、4.8(g/kg)的土壤上试种烟叶。采收时,每种土壤上各采集7株,测量各株的单位面积叶片干重(数据略)。已知不同NaCl含量土壤上的烟叶单位面积干重存在差异。在NaCl含量为0、0.8、1.6、2.4、3.2、4.0、4.8(g/kg)的土壤上试种烟叶。采收时,每种土壤上各采集7株,测量各株的单位面积叶片干重(数据略)。已知不同NaCl含量土壤上的烟叶单位面积干重存在差异。 问:哪些土壤上的烟叶干重是不同的? 多重比较
在第一渔场和第二渔场各测量了20条马面鲀体长(数据略)。问:这二个渔场马面鲀体长总体方差是否相等?在第一渔场和第二渔场各测量了20条马面鲀体长(数据略)。问:这二个渔场马面鲀体长总体方差是否相等? 方差齐性检验
在第一渔场和第二渔场各测量了20条马面鲀体长(数据略,已知σ1≠σ2)。问:这二个渔场马面鲀的体长是否相同?在第一渔场和第二渔场各测量了20条马面鲀体长(数据略,已知σ1≠σ2)。问:这二个渔场马面鲀的体长是否相同? 异方差成组数据t检验
在一定范围内,发酵温度与酒精产量呈线性关系。下表为不同的发酵温度所对应的酒精产量(数据略)。求直线回归方程。在一定范围内,发酵温度与酒精产量呈线性关系。下表为不同的发酵温度所对应的酒精产量(数据略)。求直线回归方程。 一元线性回归方程
下表为不同温度、不同原料下的酒精产量,相同条件下设3个重复(数据略)。问:不同温度、不同原料对酒精产量的影响是否显著?下表为不同温度、不同原料下的酒精产量,相同条件下设3个重复(数据略)。问:不同温度、不同原料对酒精产量的影响是否显著? 有重复双因素方差分析
随机抽取某植物叶片160片进行观察, 发现叶片边缘齿数有18、16、14、12四种, 被观察到的叶片数量分别为90、30、30、10片 问:该植物叶片边缘齿数的平均值是多少? (=0.05) m 的置信区间估计
随机抽取某植物叶片160片进行观察, 发现叶片边缘齿数有18、16、14、12四种,被观察到的叶片数量分别为90、30、30、10片。 问:这4种特征的比例是否符合10:2:2:1的比例?(=0.05) 拟合优度检验
在高原集训之前随机抽取10名运动员检测血红蛋白含量,在高原集训之后再随机抽取10名运动员检测血红蛋白含量(数据略)。问:高原集训是否提高了血红蛋白含量?在高原集训之前随机抽取10名运动员检测血红蛋白含量,在高原集训之后再随机抽取10名运动员检测血红蛋白含量(数据略)。问:高原集训是否提高了血红蛋白含量? 等方差成组数据t检验或等方差成组数据t检验,应进行方差齐性检验来确定。
在高原集训之前随机抽取10名运动员检测血红蛋白含量,在高原集训之后再抽取这10名运动员检测血红蛋白含量(数据略)。问:高原集训是否提高了血红蛋白含量?在高原集训之前随机抽取10名运动员检测血红蛋白含量,在高原集训之后再抽取这10名运动员检测血红蛋白含量(数据略)。问:高原集训是否提高了血红蛋白含量? 配对数据t检验
考核的形式 • 选择填空 15% • 统计类型 10% • 计算题 20% ——须自备计算器 • 操作题 25% • 问答题 30%