170 likes | 330 Views
多元统计分析. - 判别分析. 暨南大学统计系 王斌会. Discriminant Analysis. 判别分析. 判别分析是多元数据分析的重要方法之一,本章主要讨论利用软件技术快速、有效地进行个案判别的方法和一般步骤。其中包括: 1 .判别分析的基本思想 2 .判别分析的过程 3 . SPSS 的判别分析 4 .判别分析的结果评述 5 .应用判别分析. 判别分析.
E N D
多元统计分析 -判别分析 暨南大学统计系 王斌会 Discriminant Analysis
判别分析 判别分析是多元数据分析的重要方法之一,本章主要讨论利用软件技术快速、有效地进行个案判别的方法和一般步骤。其中包括: 1.判别分析的基本思想 2.判别分析的过程 3.SPSS的判别分析 4.判别分析的结果评述 5.应用判别分析
判别分析 判别分析的目的是对已知分类的数据建立由数值指标构成的分类规则,然后把这样的规则应用到未知分类的样本中去分类。例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别。把这种区别表示为一个判别公式,然后对怀疑患胃炎的人就可以根据其化验指标用判别公式诊断。
SPSS的Discriminant过程 Discriminant过程根据已知的观测量分类和表明观测量特征的变量值推导出判别函数,并把各观测量的自变量值代入到判别函数中,根据判别函数对观测量所属类别进行判别。对比原始数据的分类和按判别函数所判内分类,给出错分概率。 Discriminant过程的大部分功能都可以通过对话框来指定,还有一些功能可以在Syntax夜中给予补充或修改。例如,指定各类的先验概率;显示旋转方式和结构矩阵;限制提取的判别函数的数目;读取一个相关矩阵;分析后把相关矩阵写入文件;指定对参与分析的观测量进行回代分类,对没有参与分析的观测量进行预测分类等。
判别分析的方法与模型 判别分析的方法有参数方法和非参数方法。参数方法假定每个类的观测来自(多元)正态分布总体,各类的分布的均值(中心)可以不同。非参数方法不要求知道各类所来自总体的分布,它对每一类使用非参数方法估计该类的分布密度,然后据此建立判别规则。 用数学的语言来说,判别问题可以表述为:对于m类总体G1,G2,……,Gm,其分布函数分别为f1(y),f2(y),…… fm(y),对于一个给定样品y,我们要判断出这个样本来自哪个总体。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。
判别函数 • 从研究角度考虑,我们可以把判别函数分为两大类,最佳型判别函数和固定型判别函数,一个最佳型的判别函数仅根据所采用的判别规则而定,而固定型判别函数的形式是由经验或部分经验选定的,所用的规则仅用来确定判别函数的未知参数。 • 就函数类型而言,一般的判别函数有两类,即线性函数和非线性函数。比如,对于固定型判别函数,我们可以将其表示为: • 在求判别函数的未知参数Ci时,可由各种各样的最优规则,常用的有Fisher准则、Bayes准则、最小二乘准则等。
SPSS的判别分析方法 为研究舒张期血压和血浆胆固醇对冠心病的作用,某医院测定了50-59岁冠心病人15例和正常人16例的舒张压和胆固醇指标,结果如下,试作判别分析,建立判别函数以便在临床中用于筛选冠心病人。
判别分析过程 单击Analyze菜单选Classify中的Discriminant...项,弹出Discriminant Analysis对话框。从对话框左侧的变量列表中选“指标”,点击钮使之进入Grouping Variable框,并点击Define Range...钮,在弹出的Discriminant Analysis:Define Range对话框中,定义判别原始数据的类别区间,本例为两类,故在Minimum处输入1、在Maximum处输入2,点击Continue钮返回Discriminant Analysis对话框。再从对话框左侧的变量列表中选舒张压、胆固醇,点击钮使之进入Independents框,作为判别分析的基础数据变量。
结果分析 用户可通过判别方程的标准化系数,确定各变量对结果的作用大小。如本例舒张压(X1)的标准化系数(0.88431)大于胆固醇(X2)的标准化系数(0.82306),因而舒张压对冠心病的影响作用大于胆固醇。考察变量作用大小的另一途径是使用变量与函数间的相关系数,本例显示X1的变量与函数间的相关系数为0.62454,X2为0.54396,同样表明舒张压对冠心病的影响作用大于胆固醇。 根据系统显示的非标准化判别方程系数,得到判别方程为: D = 0.6379195X1 + 0.8001452X2 - 10.7532968 依此方程,病人组的中心得分点为1.11198,正常人组的中心得分点为-1.04248。本例为二类判别,二类判别以0为分界点,若将某人的舒张压和胆固醇值代入判别方程,求出的判别分>0的为冠心病人,判别分<0的为正常人。
小结 判别分析是数据分类的另外一种方法,是以特征判别函数为主要工具,依照一定的规则判断某个样品的归属的统计分析方法。判别分析的方法有参数方法和非参数方法。参数方法假定每个类的观测来自(多元)正态分布总体,各类的分布的均值(中心)可以不同。非参数方法不要求知道各类所来自总体的分布,它对每一类使用非参数方法估计该类的分布密度,然后据此建立判别规则。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。