生物统计学（ Biostatistics ）课程编号： 072026

生物统计学（Biostatistics）课程编号：072026 授课教师：孔德信 E-mail：dxkong@163.com rasin@sdut.edu.cn Office：13#-239(2781931-606)

第一章概论

第一节 生物统计学的概念

概念生物统计学（Biostatistics）是数理统计在生物学研究中的应用，它是应用数理统计的原理，运用统计方法来认识、分析、推断和解释生命过程中的各种现象和试验调查资料的科学。属于生物数学的范畴。

第二节 生物统计学的内容和作用

一、生物统计学的研究内容 基本原则方案制定常用试验设计方法对比设计随机区组设计裂区设计拉丁方设计正交设计试验设计生的物基统本计内学容资料的搜集和整理数据特征数的计算统计推断方差分析回归和相关分析协方差分析主成分分析聚类分析统计分析

提供整理和描述数据资料的科学方法，确定某些性状和特征的数量特征。提供整理和描述数据资料的科学方法，确定某些性状和特征的数量特征。运用显著检验，判断试验结果的可靠性或可行性。提供由样本推断总体的方法。提供试验设计的的一些重要原则。生物统计学的基本作用：

第三节 生物统计学的发展概况

生物统计学的发展 古典记录统计学近代描述统计学现代推断统计学？生物学的发展阶段

统计学发展史中的重大事件与重要代表人物 J.Bernoulli（贝努里，瑞士，1654～1705）系统论证了“大数定律”，即样本容量越大，样本统计数与总体参数之差越小。 P.S. Laplace（拉普拉斯，法国，1749～1827）最早系统的把概率论方法运用到统计学研究中去，建立了严密的概率数学理论，并应用到人口统计、天文学等方面的研究上。

Gauss（高斯，德国，1777～1855） 正态分布理论最早由De Moiver于1733年发现，后来Gauss在进行天文观察和研究土地测量误差理论时又一次独立发现了正态分布（又称常态分布）的理论方程，提出“误差分布曲线”，后人为了纪念他，将正态分布也称为Gauss分布。

F. Galton（高尔登，英国，1822～1911） 19世纪末统计学开始用于生物学的研究。1882年Galton开设“人体测量实验室”，测量9337人的资料，探索能把大量数据加以描述与比较的方法和途径，引入了中位数、百分位数、四分位数、四分位差以及分布、相关、回归等重要的统计学概念与方法。1889年发表第一篇生物统计论文《自然界的遗传》。1901年Galton和他的学生Pearson创办了“Biometrika（生物统计学报）”杂志，首次明确“Biometry（生物统计）”一词。所以后人推崇Galton为生物统计学的创始人。

K. Pearson（卡.皮尔逊，英国，1857～1936） Pearson的一生是统计研究的一生。他首创频数分布表与频数分布图，如今已成为最基本的统计方法之一；观察到许多生物的度量并不呈现正态分布，利用相对斜率得到矩形分布、J型分布、U型分布或铃型分布等；1900年独立发现了X2分布，提出了有名的卡方检验法，后经Fisher补充，成为小样本推断统计的早期方法之一； Pearson对“回归与相关”进一步作了发展，在1897～1905年，Pearson还提出复相关、总相关、相关比等概念，不仅发展了Galton的相关理论，还为之建立了数学基础。

W.S.Gosset（歌赛特，英国，1777～1855） 在生产实践中对样本标准差进行了大量研究。于1908年以“Student（学生）”为笔名在该年的Biometrika上发表了论文《平均数的概率误差》，创立了小样本检验代替大样本检验的理论，即t分布和t检验法，也称为学生式分布。t检验已成为当代生物统计工作的基本工具之一，为多元分析理论的形成和应用奠定了基础，为此，许多统计学家把1908年看作是统计推断理论发展史上的里程碑。

R.A.Fisher（费歇尔，英国，1890～1962） Fisher一生论著颇多，共写了329篇。他跨进统计学界是从研究概率分布开始的，1915年在Biometrika上发表论文《无限总体样本相关系数值的频率分布》，被称为现代推断统计学的第一篇论文。1923年发展了显著性检验及估计理论，提出了F分布和F检验，1918年在《孟德尔遗传试验设计间的相对关系》一文中首创“方差”和“方差分析”两个概念，1925年提出随机区组和正交拉丁方试验设计，并在卢桑姆斯坦德农业试验站得到检验与应用，他还在试验设计中提出“随机化”原则，1938年和Yates合编了Fisher Yates随机数字表。

另外， Neyman（1894～1981）和S.Pearson进行了统计理论研究，分别与1936和1938年提出一种统计假说检验学说。P.C.Mabeilinrobis对作物抽样调查、A.Waecl对序贯抽样、Finney对毒理统计、K.Mather对生统遗传学、F.Yates对田间试验设计等都作出了杰出贡献。

四、统计学在中国的传播 我国在解放前，社会经济发展缓慢，统计的应用和发展受到了很大的限制。1913年，顾澄教授（1882～？）翻译了英国统计学家尤尔的著作《统计学之理论》（1911），即为英美数理统计学传入中国之始。之后又有一些英美统计著作被翻译成中文，Fisher的理论和方法也很快传入中国。在20世纪30年代，《生物统计与田间试验》就作为农学系的必修课，1935年王绶（1876～1972）编著出版的《实用生物统计法》是我国出版最早的生物统计专著之一。随后1942年范福仁出版了《田间试验技术》等，这些对推动我国农业生物统计和田间试验方法的应用都产生了很大影响。

新中国成立后，许多学者翻译、编著了统计学论著，有力的推动了数理统计方法在中国的普及和应用。1978年12月国家统计局在四川峨眉召开了统计教学、科研规划座谈会，全面引进了前苏联的社会经济统计理论和统计制度，对我国社会经济统计学的发展起到了一定的积极作用。这以后有关统计学的教材与论著如雨后春笋般涌现，统计工作和统计科研迅速发展。1984年1月1日颁布实施《中华人民共和国统计法》，1987年2月国家统计局又发布《中华人民共和国统计法实施细则》，1996年5月八届人大十九次会议通过了《关于修改<中华人民共和国统计法>的决定》。新中国成立后，许多学者翻译、编著了统计学论著，有力的推动了数理统计方法在中国的普及和应用。1978年12月国家统计局在四川峨眉召开了统计教学、科研规划座谈会，全面引进了前苏联的社会经济统计理论和统计制度，对我国社会经济统计学的发展起到了一定的积极作用。这以后有关统计学的教材与论著如雨后春笋般涌现，统计工作和统计科研迅速发展。1984年1月1日颁布实施《中华人民共和国统计法》，1987年2月国家统计局又发布《中华人民共和国统计法实施细则》，1996年5月八届人大十九次会议通过了《关于修改<中华人民共和国统计法>的决定》。随着计算机的迅速普及，统计电算程序SAS(Statistical Analysis System)、SPSS(Statistical Package for Social Science) 、 Excel等的引进，统计学在中国的应用与研究出现了崭新的局面。

第四节常用统计学术语 一、总体与样本具有相同性质或属性的个体所组成的集合称为总体 (population)，它是指研究对象的全体；组成总体的基本单元称为个体(individual)；从总体中抽出若干个体所构成的集合称为样本(sample)；总体又分为有限总体和无限总体：含有有限个个体的总体称为有限总体（finitude popuoation）；包含有极多或无限多个体的总体称为无限总体（infinitude popuoation）.

构成样本的每个个体称为样本单位；样本中所包含的个体数目叫样本容量或样本大小(sample size)，样本容量常记为n。一般在生物学研究中，通常把n≤30的样本叫小样本，n >30的样本叫大样本。对于小样本和大样本，在一些统计数的计算和分析检验上是不一样的。研究的目的是要了解总体，然而能观测到的却是样本，通过样本来推断总体是统计分析的基本特点。

二、变量与常量 变量，或变数，指相同性质的事物间表现差异性或差异特征的数据。常数，表示能代表事物特征和性质的数值，通常由变量计算而来，在一定过程中是不变的。

连续变量 可以有任何小数出现变量定量变量非连续变量只有整数出现定性变量

三、参数与统计数 为了表示总体和样本的数量特征，需要计算出几个特征数，包括平均数和变异数（极差、方差、标准差等）。描述总体特征的数量称为参数(parameter)，也称参量。常用希腊字母表示参数，例如用μ表示总体平均数，用σ表示总体标准差；描述样本特征的数量称为统计数(staistic)，也称统计量。常用拉丁字母表示统计数，例如用表示样本平均数，用S表示样本标准差。

四、效应与互作 通过施加试验处理，引起试验差异的作用称为效应。效应是一个相对量，而非绝对量，表现为施加处理前后的差异。效应有正效应与负效应之分。互作，又叫连应，是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效应（协同作用）与负效应（拮抗作用）之分。

五、机误与错误 变异效应随机误差／机误（Random error）误差系统误差／错误（Systematic error）

随机误差，也叫抽样误差(sampling error) 。这是由于试验中无法控制的内在和外在的偶然因素所造成。如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致，但也不可能达到绝对一致，所以随机误差带有偶然性质，在试验中，即使十分小心也是不可避免的。如果通过良好的试验设计、正确的试验操作，增加抽样或试验次数，随机误差可能减小，但不可能完全消灭。统计上的试验误差一般都指随机误差。随机误差越小，试验精确性越高。

系统误差，也叫片面误差 (lopsided error)。 这是由试验处理以外的其他条件明显作产生的带有倾向性的或者定向性的偏差。如测量仪器不准、试剂配制不当等等。而错误是指试验人员粗心大意使称量、观测、记载、抄录、计算中出现人为因素引起的差错。系统误差影响试验的准确性，它只可以减小不可以避免。而错误，只要以认真负责的态度和细心的工作作风是完全可以避免的。

六、准确性与精确性 准确性(accuracy)，也叫准确度，指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。设某一试验指标或性状的真值为μ，观测值为x，若 x与μ相差的绝对值|x－μ|越小，则观测值x的准确性越高；反之则低。精确性(precision)，也叫精确度，指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近，即任意二个观测值xi 、xj相差的绝对值|xi －xj |越小，则观测值精确性越高；反之则低。

关于如何学习生物统计学 • 基础：线代、概率论 • 以本为本； • 两先两后一小结； • 理论加实践；

统计学习要诀

原理、概念的理解比算题重要得多；

不断地问自己为什么，梦中也不放过；

统计方法高级不一定好，简单有效最好。

初等统计学习后应该有不解渴的感觉，而非庞杂无序之感。初等统计学习后应该有不解渴的感觉，而非庞杂无序之感。

努力体验提升思维境界和突破思维疆界的兴奋；努力体验提升思维境界和突破思维疆界的兴奋；

笑口常开，乐享风华

标志性的学习成功结果就是你对大多数公式和运算方式都不能回忆，但是你能够根据实际问题阐述你的解决问题的一个或几个方法或角度，并在统计思想的引导下，在其中选择一个最优的，或者是发展出新的其它方法或角度。标志性的学习成功结果就是你对大多数公式和运算方式都不能回忆，但是你能够根据实际问题阐述你的解决问题的一个或几个方法或角度，并在统计思想的引导下，在其中选择一个最优的，或者是发展出新的其它方法或角度。

有志者事竟成苦心人天不负 有志者，事竟成，破釜沉舟，百二秦关终属楚。苦心人，天不负，卧薪尝胆，三千越甲可吞吴。蒲松龄

人才成长阶段论 吾十有五而志于学，三十而立，四十而不惑，五十而知天命，六十而耳顺，七十而随心所欲，不逾距。孔子

赠言 每天都是向既定目标迈进的一步

生物统计学（ Biostatistics ）课程编号： 072026