760 likes | 905 Views
第四章 基本统计分析. 一、基本统计分析功能. 基本统计分析功能包括: 1. 报告分析 ( Report )(有兴趣的自学) 2. 描述性统计分析 ( Descriptive Statistics ). 报告分析简介:. 报告分析包括: 1. OLAP 在线分析处理过程 2. 报表 根据报表制作的侧重点不同,可以分为 3 种: ( 1 )个案简明统计报表 ( Cases Summary ) ( 2 )行形式报表( Report Summaries in Rows )
E N D
一、基本统计分析功能 • 基本统计分析功能包括: • 1.报告分析(Report)(有兴趣的自学) • 2.描述性统计分析(Descriptive Statistics)
报告分析简介: • 报告分析包括:1.OLAP在线分析处理过程 2.报表 • 根据报表制作的侧重点不同,可以分为3种: (1)个案简明统计报表( Cases Summary) (2)行形式报表(Report Summaries in Rows) (3)列形式报表(Report Summaries in columns)
描述性统计分析(Descriptive Statistics) • 1. Frequencies 频数分析 • 2. Descriptive 描述性统计分析 • 3. Explore 探索分析(自学) • 4. Crosstabs 列联表分析 • 5. Ratio 比率分析(自学)
二、频数分析 • (一)频数的定义 频数就是一个变量在各个变量值上取值的个案数。 可编制频数分布表和绘制统计图,把握数据分布的基本特征。 • (二)命令 Analyze/Descriptive statistics/Frequencies
Frequences主对话框 选择一个或多个变量右移入Variable(s)框。 显示频数分布表 统计图 频数输出的顺序 统计量
统计表中变量的各项分析结果在一张表并列显示统计表中变量的各项分析结果在一张表并列显示 按变量值的升序输出 按各个变量组织输出,输出结果将按照每个变量一张表的形式显示 按频数的升序输出 控制频数表输出范围 类型的最大数目为 Format 对话框
三、计算基本描述统计量 (一)功能: 对变量进行描述性统计分析,计算均值、标准差、全距和均值标准误差等,并可将原始数据转换成Z分数。 (二)调用命令: 按Analyze/Descriptive Statistics/ Descriptives顺序单击,打开主对话框。
Descriptive 对话框 如选中此框,将对Variables框中选择的变量进行标准化产生相应的Z分值,并作为新变量保存到数据窗口,其变量名在原变量名前加z。 选一个或多个变量移入
(三)例题分析已知20个初生婴儿的体重数据如下表,对其进行描述统计。(三)例题分析已知20个初生婴儿的体重数据如下表,对其进行描述统计。 提示:可以利用DATA中的TRANSPOSE进行转置取得SPSS数据文件。
操作步骤: • 打开数据文件“婴儿体重.sav”。打开 Descriptives主对话框,选定变量t进入Variable栏中。 • 选中Save standardized values as variables复选框,要求计算变量的z值,并保存结果到当前数据集中。 • 单击Options按钮,选中Mean、Std.Deviation、Minimum、Maximum 、Variance 项。
这时打开原数据集,可看到多了一列zt,这是t 的z 分数,如下图所示: 保存了z 分数的数据集
四、探索分析过程 转交叉列联表分析 (一)主要功能 调用此过程可检查数据是否有错误、考察样本分布特征及对样本分布规律作初步考察。剔除奇异值和错误数据。探索分析过程将提供在分组和不分组的情况下常用的统计量与图形。 (二)探索分析 按Analyze Descriptive Statistics Explore 顺序单击,打开 Explore 主对话框。
Explore 栏中Options对话框 • 确定缺失值的处置: • 因变量或分组变量中带有缺失值的观测量都将在分析过程中被剔除。 • 在分析过程中根据分组变量产生的组中带缺失值的观测量都将被剔除。 • 分组变量的缺失值被单独分为一组,输出频数时将标出缺失组。
(三)例题:下表为30名10岁少儿的身高(cm)数据,试对其进行探索分析。(三)例题:下表为30名10岁少儿的身高(cm)数据,试对其进行探索分析。
步骤: • 打开 Explore主对话框,打开数据文件“Explore分析.sav”选变量height进入Dependent List栏中,选sex变量进入Factor List栏中; • 在Display栏中选择 Both项; • 打开Statistics对话框,选中Descriptives 、M-estimation、 Outliers复选项,单击Continue返回; • 打开Plot对话框,选择Boxplots栏中的Factor levels together项,选择Descriptives栏内的 Stem-and-leaf复选项,选择Spread vs level with levene Test栏中的 Power estimation项,单击 Continue 返回。单击OK
观测量摘要表 M估计量表
方差一致性检验 零假设是分组后的方差相等。 表中四行是依据不同的统计量得到的检验,分别是基于均值、基于中位数与调整后的自由度和基于调整后的均值。 由于其显著值均大于0.05,不能否定零假设,即可以认为男生和女生的身高的方差是无差异的。
茎叶图 HIGHT Stem-and-Leaf Plot for SEX= 1 Frequency Stem & Leaf 1.00 12 . 1 4.00 12 . 8999 3.00 13 . 122 5.00 13 . 55567 2.00 14 . 00 Stem width: 10.00 Each leaf: 1 case(s) • 从左到右分为三部分:频数、茎和叶。 • 茎是整数部分,叶是小数部分,Stem width表示茎宽。每行的茎和叶组成的数字再乘以茎宽,即得到实际数据的近似值,实际数据中与该近似值靠近的值的个数即为频数表示的个数。
箱式图 • 方形是箱式图的主体,上下边为四分位数,中心粗线为中位数,变量的50%的观测值落在这一区域中。 • 方形上下两条纵向直线是触须线,触须线外的两端线为本体的最大值和最小值。本体指除奇异值外的变量值。 • 奇异值用“O”标出,本例中无奇异值。
五、列联相关 • (一)列联分析的基本原理 • 自变量发生变化,因变量取值是否也发生变化。 • 比较边缘百分比和条件百分比的差别。
卡方测量用来考察两变量是否独立(无关)。 其原理是根据这一概率定理:若两变量无关,则两变量中联合事件发生的概率应等于各自独立发生的概率乘积 当检验的相伴概率P小于a,拒绝原假设,说明行列变量存在关联。注意:原假设为行列变量无关。
在列联表中,这一定理就具体转化为:若两变量无关,则两变量中条件概率应等于各自边缘的概率乘积。反之,则两变量有关,或称两变量不独立。在列联表中,这一定理就具体转化为:若两变量无关,则两变量中条件概率应等于各自边缘的概率乘积。反之,则两变量有关,或称两变量不独立。
由此可见,期望值与观察值的差距越大,说明两变量越不独立,也就越有相关。因此,卡方的表达式如下:由此可见,期望值与观察值的差距越大,说明两变量越不独立,也就越有相关。因此,卡方的表达式如下: 卡方的取值在0~∞之间。卡方值越大,关联性越强。在SPSS中,有Pearson X2和相似比卡方(Likelihood Ratio X2)两种。
的改进标准化系数: 为使 值有一固定的区间,便于比较,采用了以下几个修正: • A、φ系数(Phi): (0~1),适用于2×2表。 • B、 列联系数(Contingency Coefficient): • (0~1),适用任意表。 • C、 Cramer V系数:(0~1),适用任意表。 • D、λ系数(Lambda): (0~1),适用任意表。 • E、 Goodman & Kruskal-tau系数: (0~1),适用任意表。
(二)列联表分析的功能 调用列联表分析过程可进行定类与定序资料列联表分析,一个行变量(row)和一个列变量(column)可组成一个二维列联表,如再加一个控制变量则可组成一个三维列联表。而多个行、列、控制变量就可组成一个复杂的多维列联表。 在分析中可对二维和多维列联表资料进行统计描述和x2检验,并计算相应的百分数指标。此外,还可计算四格表确切概率(Fisher’s Exact Test),且有单双侧(One-Tail、Two-Tail)、对数拟然比检验( Likelihood Ratio)以及线性关系的Mantel-Haenszel x2检验。
列联表的格式 行变量y 列变量x
(三)列联表分析过程 列联表分析步骤: 按AnalyzeDescriptive Statistics Crosstabs 顺序打开 Crosstabs 主对话框。
Statistics 对话框 均定距或均定序 定类与定类 定类与定类 定序与定序 定序与定序 定序与定序 定序与定序 医学分析中用 一定类,一定距 一定类,一定距