580 likes | 851 Views
艾对元 Eddy. DOE & EXCEL, SPSS application. 课程目的. 应用统计学 , 试验设计 理解统计数据分析主要方法的基本理论 掌握基本统计方法在实践中的应用 能熟练运用 Excel , SPSS 软件实现数据分析 独立运用统计方法解决实际问题. 参考书目:. 1.《 试验设计与数据处理 》 ,李云雁编,化学工业出版社, 2008 2.《Excel 2007 在统计分析中的应用 》 ,谢邦昌编著,清华大学出版社, 2008 3. 《 试验设计与 SPSS 应用 》 ,王颉主编,化学工业出版社, 2006
E N D
艾对元 Eddy DOE & EXCEL, SPSS application
课程目的 • 应用统计学,试验设计 • 理解统计数据分析主要方法的基本理论 • 掌握基本统计方法在实践中的应用 • 能熟练运用Excel ,SPSS软件实现数据分析 • 独立运用统计方法解决实际问题
参考书目: • 1.《试验设计与数据处理》,李云雁编,化学工业出版社,2008 • 2.《Excel 2007 在统计分析中的应用》,谢邦昌编著,清华大学出版社,2008 • 3. 《试验设计与SPSS应用》,王颉主编,化学工业出版社,2006 • 4、《统计学:从数据到结论》(第2版)吴喜之著,中国统计出版社,2006。 • 5、《统计分析与SPSS的应用》,薛薇编著,中国人民大学出版社,2001。 • 6、《SPSS统计分析教程》,李志辉等主编,电子工业出版社,2003。
SPSS软件应用实用网址 • 1. SPSS网址:http://www.spss.com2. SPSS中文网址 http://www.spssgz.com.cnhttp://www.spss.com.cn • 4. SPSS FOR WINDOWS简明教程目录http://www.fjmu.edu.cn/news/spss/doc3/index.htm(由福建教育出版社出版,姜小鹰主编) • 5. SPSS for Windows 10.0版教程http://www.medstatstar.myetang.com/spss/coach.htm(医学统计之星网站 作者:张文彤 )
§ 统计是什么? • 统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。
统计软件 • SPSS:这是一个很受欢迎的统计软件;它容易操作,输出漂亮,功能齐全,价格合理。对于非统计工作者是很好的选择。 • SAS:这是功能非常齐全的软件;尽管价格不菲,许多公司还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量“傻瓜化”,仍然需要一定的训练才可以进入。对于基本统计课程则不那么方便。 • STATA: 这是众多统计软件的后起之秀;它操作灵活、简单、易学易用,同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点。占用计算机系统资源少,绘图漂亮,对有简单编程基础者来讲十分容易上手,有专门出版的专业刊物。 以上三种软件并称为新的国际三大权威统计软件
统计软件 • Excel:它严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能。而且凡是有Microsoft Office的计算机,基本上都装有Excel。但要注意,有时在装Office时没有装数据分析的功能,那就必须装了才行。当然,画图功能是都具备的。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用函数,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。
统计软件 • S-plus:这是统计学家喜爱的软件。不仅由于其功能齐全,而且由于其强大的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行“傻瓜化”以争取顾客。但仍然以编程方便为顾客所青睐。 • R软件:这是一个免费的,由志愿者管理的软件。其编程语言与S-plus所基于的S语言一样,很方便。还有不断加入的各个方向统计学家编写的统计软件包。同时从网上可以不断更新和增加有关的软件包和程序。这是发展最快的软件,受到世界上统计师生的欢迎。是用户量增加最快的统计软件。对于一般非统计工作者来说,主要问题是它没有“傻瓜化”。
统计软件 • Minitab:这个软件是很方便的功能强大而又齐全的软件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么普遍。 • Statistica:也是功能强大而齐全的“傻瓜化”的软件,在我国用的也不如SAS与SPSS那么普遍。 • Eviews:这是一个主要处理回归和时间序列的软件。 • GAUSS:这是一个很好用的统计软件,许多搞经济的喜欢它。主要也是编程功能强大。目前在我国使用的人不多。 • FORTRAN:这是应用于各个领域的历史很长的非常优秀的编程软件,功能强大,也有一定的统计软件包。计算速度比这里介绍的都快得多。但需要编程和编译。操作不那么容易。 • MATLAB:这也是应用于各个领域的以编程为主的软件,在工程上应用广泛。编程类似于S和R。但是统计方法不多。
3 2 1 统计软件SPSS界面概述 SPSS统计分析一般步骤 正交试验设计 主要内容
SPSS简介 SPSS是Statistical Program for Social Sciences 的简称,即社会科学统计程序,由美国SPSS公司1970年代推出,迄今已有近30年的历史。是国际著名三大社会科学统计软件包之一(SAS、SPSS、Statis)。我们现在使用的是SPSS for Windows 13.0版。 作为统计分析工具,理论严谨、内容丰富,数据管理、统计分析、趋势研究、制表绘图、文字处理等 优点 使用简便,不用编程(SAS需编程)同excel转换、强大的统计功能等
SPSS的主要窗口和菜单 1 SPSS的3个主要窗口 1-1 数据编辑器窗口(SPSS Data Editor):用来编辑和显示数据;在此窗口中的文件名称为*. sav。 1-2 程序语句编辑器窗口( SPSS Syntax Editor):用来编写各种程序;在此窗口中的文件名称为*. sps。 1-3 结果观看窗口( SPSS Viewer):显示统计运算结果;在此窗口中的文件名称为*. spo。
2 SPSS 数据编辑器的主要菜单 2-1 File 菜单:文件管理 New;Open;Save;Save as;Exit。 2-2 Edit 菜单:编辑 Undo;Cut;Copy;Paste;Clear; Find; 2-3 View菜单:视图 Fonts;Grid lines;Value labels。
2-4 Data菜单:数据整理 define variables;Insert variables;Insert case; go to case;sort case;select case。 2-5 Transform菜单:数据转换 recode;compute;count。 2-6 Analyze菜单:统计 2-7 Graphs菜单:统计图 2-8 Utilities菜单:工具附件 2-9 Windows菜单:窗口 2-10 Help菜单:帮助
主菜单 1、File:文件管理菜单,有关文件的调入、存储、显示和打印等; 2、Edit:编辑菜单,有关文本内容的选择、拷贝、剪贴、寻找和替换等; 3、View:视图; 4、Data:数据管理菜单,有关数据变量定义、数据格式选定、观察对象的选择、排序、加权、数据文件的转换、连接、汇总等; 5、Transform:数据转换处理菜单,有关数值的计算、重新赋值、缺失值替代等; 6、Analyze:统计菜单,有关一系列统计方法的应用; 7、Graphs:作图菜单,有关统计图和表的制作; 8、Utilities:用户选项菜单,有关命令解释、字体选择、文件信息、定义输出标题、窗口设计等; 9、Windows:窗口管理菜单,有关窗口的排列、选择、显示等; 10、Help:求助菜单,有关帮助文件的调用、查寻、显示等。
一、统计软件SPSS界面概述 标题栏 菜单栏 工具栏 工作区 建立数据文件、定义变量、编辑图表、编写程序等等。
数据编辑窗(Data Editor) 结果输出窗 (SPSS Viewer) SPSS 界面 Text
数据编辑窗(Data Editor) Data Editor的两个界面: Data View界面:是用户进行数据输入、数据编辑、数据文件整理的界面。 输入数据? 定义变量? Variable View界面:是用户定义数据文件的变量界面。 两个界面的切换方法是单击窗口左下角的Data View和Variable View选项卡,选中的选项卡以高度形式显示。
输入数据的方法(Data View界面): • 定义一个变量就先输入这个变量,这种方法是纵向输入数据。采用此方法,我们依次输入该变量的各个数值。 • 在定义完所有的变量之后,按观测量来输入数据,即输入完一个观测量以后,再输入第二个观测量,这种方法是横向进行的。
如何定义一个变量(Variable View界面): 在Variable View界面上,可以定义变量名、变量的类型、变量的长度及小数位数、变量标签及其值签、变量的格式(包含显示的宽度、对齐方式、误差值标签等)。 在定义SPSS变量时,至少应定义变量名和变量类型,而其他属性则可以采用默认值。
变量的定义和数据的输入 • Name 变量名 • Type变量类型 • Width 变量宽度 • Decimals 小数点 • Label变量标签 • Values 变量值标签 • Missing 缺失值 • Columns 变量显示宽度 • Align 变量对齐方式
定义变量名:单击“Name”所在列的第一行,就可以输入要定义的第一个变量的变量名称。定义变量名:单击“Name”所在列的第一行,就可以输入要定义的第一个变量的变量名称。 • 定义变量类型:单击“Type”栏,会出现省略号,再单击省略号,就会出现定义变量类型的对话框。用户可以在此对话框选择变量类型及更改变量的长度和小数位数。系统默认为标准数值型变量Numeric。 • 定义变量的小数位数:单击“Decimal”,修改所需的小数位数。
变量要求: • 变量名不能超过8个字符; • 变量名不能以数字开头; • 变量名中不能包含+,-,×,/、?、=等运算和逻辑符号。 • 当相邻变量名称上存在顺序且码位相同时,可用简略方法 : • W02 8 W03 9 W04 10.可换为W02 to W04 8-10. • 当变量值是字符时,在码位后加(a);如: • W7 12(a); • 当变量值包含小数时,在码位后加(n),n表示小数的位数。如:446.79,在录入时要录成 • 44679,定义时为:W12 12-16(2);
外部式录入 内部式录入 数据录入 采用DOS、WPS、CCED等软件,按ASCII码方式录入成文本文件(*.dat;*.txt)。这种录入方式的特点是,数据之间没有间隔,录完一个数码后自动后移,录入速度较快。缺点是容易错位。 采用SPSS数据编辑器(SPSS Data Editor)录入。其优点是不容易错位,缺点是不能自动后移,录入速度慢,数据错误不容易修改。
数据文件的建立,编辑,整理 选择统计分析方法 选择分析变量,设置参数 查看解释分析结果 二、SPSS统计分析一般步骤 在数据编辑窗口中 在【Analyze】菜单中 打开的各级对话框中 在“SPSS Viewer”中
在SPSS中,数据文件的编辑、整理等功能被集中在了Data和Transform两个菜单项中,这两个菜单的内容如下所示:在SPSS中,数据文件的编辑、整理等功能被集中在了Data和Transform两个菜单项中,这两个菜单的内容如下所示: Data菜单项 Transform菜单项
数据的编辑 • 数据的打开File==>Open==>Data/output • 数据的增删、复制、粘贴,insert、cut或clear、copy • 数据的排序,Sort升序或降序 • 数据的搜索,Go to Case或Find • 数据的复制,Copy或paste • 数据的编码,对于一些连续变量如年龄等可通过recode等进行编码 • 数据的计算,Compute • 秩和检验中计算秩次,Ranks-Mean • 文件的拆分 ,Select cases(物理) 和split(形式) sex • 文件的合并 ,add或Merge • 对于频数表资料(2 检验 )要进行加权,即Weight • 数据文件的保存, 可转换为excel等格式 • 奇异数据的发现和检查可用Frequencies或Explore等
SPSS Analyze统计菜单功能介绍 • 描述性统计分析--Descriptive Statistics菜单 • 均数间的比较--Compare Means菜单 • 一般线性模型――General Linear Model菜单 • 相关分析――Correlate菜单 • 多元线性回归与曲线拟合―― Regression菜单 • 对数线性模型——Loglinear菜单 • 聚类分析与判别分析——Classify菜单 • 因子分析与对应分析——Data Reduction菜单 • 信度分析与多维尺度分析——Scale菜单 • 非参数检验――Nonparametric Tests菜单 • Survival菜单
三、正交试验设计 正交试验设计 • 结果分析: • 直观分析法 • 方差分析法 与SPSS实现 基本步骤
正交实验设计的基本步骤 1 2 3 4 明确实验目的,确定考察指标,挑因素,选水平 选择合适的正交表 进行表头设计 排出实验方案
计算Ki值和Ki值 计算各因素列的极差R 根据极差R的大小,进行因素的主次排队 选出最优的水平组合 正交试验的结果分析——直观分析法 验证试验 无
3 有交互作用正交试验的方差分析 2 有重复正交试验的方差分析 1 无重复正交试验的方差分析 正交试验的结果分析——方差分析法与SPSS实现 须有空列,用空列来估算实验误差
无重复正交试验的方差分析 例1 为了考察影响某种化工产品转化率的因素,选择三个有关因素:反应温度(A)、反应时间(B)、用碱量(C)每个因素取三种水平,因素水平表见表1,结果见表2: 表1
SPSS操作步骤如下: • Step1:将表2数据输入SPSS数据编辑窗口后,依次选择Analyze→General Linear Model →Univariate…,即可打开【Univariate】主对话框。 • Step2:将左边“转化率”变量选入右边“Dependent Variable” (因变量列表),a、b和c项目选入“Fixed Factor(s)”(自变量),“d”因子不动,用于估算试验误差。 • Step3:选择【Model … 】按钮,打开【 Univariate Model】子对话框。在此对话框中选择“Custom”(自定义模型),将左边a、b和c项目选入“Model”中,按【Continue】按钮返回【 Univariate】主对话框。 • Step3:选择【Post Hoc … 】打开【Post Hoc Multiple Comparisons for … 】对话框,将左边a、b和c项目选入“Post Hoc Tests for”中,选择“Duncan”,单击【Continue】返回【 Univariate】主对话框。 • Step4:单击【OK】完成。
由此表可知,因素A、B和C均有3个水平,每个水平没有重复。由此表可知,因素A、B和C均有3个水平,每个水平没有重复。
由此表可知,因素“A”,F=34.333;“B”,F=6.333;“C”,F=13.000。而只有“A”因素的Sig.值小于0.05,“B”和“C”的Sig.值均大于0.05,说明“A”因素对试验结果有显著影响,而“B”因素和“C”因素对试验结果影响差异不显著。由此表可知,因素“A”,F=34.333;“B”,F=6.333;“C”,F=13.000。而只有“A”因素的Sig.值小于0.05,“B”和“C”的Sig.值均大于0.05,说明“A”因素对试验结果有显著影响,而“B”因素和“C”因素对试验结果影响差异不显著。
由此Duncan多重比较表可以看 出,“A”因素三水平最好。Level-1与Level-2无显著差异; Level-1, Level-2与Level-3都有显著差异。差异显著度在sig.
由此Duncan多重比较表可以看 出,“B”因素三个水平之间差异不显著,但以两水平转化率最高。
由此Duncan多重比较表可以看 出,“C”因素两水平最好。
综合以上可得: 最适宜的试验组合为A3B2C2,对于“B”因素是试验结果的次要影响因素,且三个处理差异不显著,可根据操作方便、经济实惠、节省开支等既定条件选取最好水平。
有重复正交试验的方差分析 例2为了提高炒青绿茶品质,研究了茶园施肥3要素配合比例(A)和用量(D),鲜叶处理方法(B)和制茶工艺方法(C)4个因素对茶叶感官质量的影响,每因素均取3个水平,选用L9(34) 正交表安排试验,重复2次。试验方案和各处理的茶叶品质总分如表3所示,试进行试验结果统计分析。 注:不考虑交互作用
SPSS操作步骤如下: • Step1:将表2数据输入SPSS数据编辑窗口后,依次选择Analyze→General Linear Model →Univariate…,即可打开【Univariate】主对话框。 • Step2:将左边“品质”变量选入右边“Dependent Variable” (因变量列表),“配合比”、“鲜叶处理”、“工艺流程”和“肥料用量”项目选入“Fixed Factor(s)”(自变量。 • Step3:选择【Model … 】按钮,打开【 Univariate Model】子对话框。在此对话框中选择“Custom”(自定义模型),将左“配合比”、“鲜叶处理”、“工艺流程”和“肥料用量”项目选入“Model”中,按【Continue】按钮返回【 Univariate】主对话框。 • Step3:选择【Post Hoc … 】打开【Post Hoc Multiple Comparisons for … 】对话框,将左边“配合比”、“鲜叶处理”、“工艺流程”和“肥料用量”项目选入“Post Hoc Tests for”中,选择“Duncan”,单击【Continue】返回【 Univariate】主对话框。 • Step4:单击【OK】完成。
由此表可知,因素“配合比”、“鲜叶处理”、“工艺流程”和“肥料用量”均有3个水平,每个水平有2次重复,每个水平在试验组合中出现6次。由此表可知,因素“配合比”、“鲜叶处理”、“工艺流程”和“肥料用量”均有3个水平,每个水平有2次重复,每个水平在试验组合中出现6次。