1 / 36

第 1 章 数据的描述性分析

第 1 章 数据的描述性分析. 1.1 数据的数字特征 数据分析研究的对象是数据,一元数据是 个观测值 要研究数据的数字特征,分析数据的集中位置、分散程度、数据的分布是正态还是偏态。对于多元数据,要分析数据各个分量的相关性等等 . 1.1.1 均值、方差等数字特征 1. 均值 2. 方差 标准差 变异系数. 阶原点矩 阶中心矩 偏度

Download Presentation

第 1 章 数据的描述性分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第1章 数据的描述性分析 1.1 数据的数字特征 数据分析研究的对象是数据,一元数据是 个观测值 要研究数据的数字特征,分析数据的集中位置、分散程度、数据的分布是正态还是偏态。对于多元数据,要分析数据各个分量的相关性等等 . 1.1.1 均值、方差等数字特征 1.均值 2.方差 标准差 变异系数

  2. 阶原点矩 • 阶中心矩 • 偏度 • 偏度是刻画数据对称性的指标,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负,关于均值对称的数据偏度为0. • 峰度 • 当总体分布为正态时,峰度近似为0;当分布较正态分布的尾部更分散,峰度为 正,否则峰度为负.

  3. 当数据是某些总体随机取出的样本时,数据数字特征即是样本的数字特征.与样本数字特征对应的是总体的数字特征.样本数字特征是相应的总体数字特征的矩估计.当数据是某些总体随机取出的样本时,数据数字特征即是样本的数字特征.与样本数字特征对应的是总体的数字特征.样本数字特征是相应的总体数字特征的矩估计. 例1.2某单位对100名女学生测定血清总蛋白含量(g/L),数据如下: 74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5 79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0 75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0 73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5 75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0 70.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3 73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7 67.2 76.5 72.7 70.4 77.2 68.8 67.5 67.5 67.3 72.7 75.8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.3 73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4

  4. 计算均值、方差、标准差、变异系数、偏度、峰度解 用SAS系统PROC UNIVARRIATE过程计算,得 偏度、峰度的绝对值皆较小,可以认为数据是来自正态总体的样本. 1.1.2 中位数、分位数、三均值与极差 这些数字特征适合总体分布未知或有偏态的数据.设 是 个观测值,将它们按由小到大排为: 称为次序统计量.最小次序统计量 与最大次序统计量 分别为

  5. 中位数与极差 • 中位数 • 中位数位于数据中心位置,中位数具有稳健性,受异常值影响较小. • 极差 • 2. 分位数 对 , 分位数 • 其中 是 的整数部分,当 定义 . • 分位数又称第100 百分数.大体上有100 %的观测值不超过 分位数. • 即中位数.

  6. 上四分位数 下四分位数 下列分位数经常用到: 四分位极差 四分位标准差 总体标准差 的稳健估计 三均值 描述数据集中位置的稳健估计 下截断点 小于下截断点的数据为特小值 上截断点 大于上截断点的数据为特大值 特小值、特大值合称异常值. 用PROC UNIVARIATE过程计算分位数、四分位极差;用 PROC IML过程计算三均值、四分位标准差,下、上截断点.

  7. 例1.8(续例1.2) 用PROC UNIVARIATE 过程,PROC IML过程计算得到: 下、上截断点分别为64.3和82.7,故数据84.3是异常值(特大值). 将异常值84.3剔除,在进行计算分析,得 可见, 更为接近, 与 与原数值相等,说明有稳健性,而 原数据的值为3.940,现为3.810说明 对异常值无稳健性.

  8. 1.2 数据的分布 对数据的总体情况作全面描述要研究数据的分布。 1.2.1 直方图、经验分布函数与QQ图 1. 直方图 数据取值范围分成若干区间,区间长度称为组距,每个区间上画一矩形,宽度是组距,高度是频率/组距,每一矩形的面积是数据落入区间的频率.SAS系统根据样本容量和样本取值范围自动确定合适的分组方式.PROC CAPABILITY过程可以做出直方图. 直方图可以对总体概率密度 的估计,这就是拟合分布曲线.SAS系统用PROC CAPABILITY 过程做直方图与拟合参数分布密度曲线.

  9. SAS系统中分布类型: 1)正态分布; 2) 对数正态分布; 3)指数分布; 4) 分布(Gamma分布); 5)Weibull分布; 6)Bata分布. 2. 经验分布函数 设来自总体分布 的样本是 ,其次序统计量是 .经验分布函数是 是非降阶梯函数, 处跃度是 (若 重复取值 次,则跃度为 ). 是充分大时, .

  10. 3. QQ图 设总体分布为正态分布 ,标准正态分布函数 ,其反函数 .QQ图是由以下的点构成的散点图: 若样本数据近似于正态分布,在QQ图上这些点近似地在直线 附近. 例1.10(续例1.2) 利用例1.2的数据 (1)作直方图,并拟合正态分布曲线; (2)做经验分布函数图,并拟合正态分布函数曲线; (3)作正态QQ图,并在直观上鉴别样本数据来自正态总体. 解 利用PROC CAPABILITY 过程可解决上述问题.

  11. 直方图

  12. 经验分布函数图

  13. QQ图

  14. 1.2.2 茎叶图、箱线图及五数总括 • 茎叶图 例1.11某班有31个学生,某门课程考试成绩如下: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 作出茎叶图. 解 第一个数25十位数为2,个位数为5.以个位数为单位, 将25用“|”分开:25 → 2 | 5. 这样,得茎叶图. 频数 2 |5 1 3 | 4 |5 1 5 |0 4 5 3 6 |1 4 8 3 7 |2 5 5 8 9 5 8 |1 3 4 4 4 5 6 6 6 7 9 9 9 13 9 |0 1 1 2 4 10|01

  15. 特点: 1)直观看出数据分布情况,绝大部分数据在70~95之间,在80~89之间形成一个高峰,数据没有30余分,数据有间隙. 2)自然显出数据排序.可看出原数据次序统计量. 例1.12铅压铸件硬度数据如下: 53.0 70.2 84.3 55.3 78.5 63.5 71.4 53.4 82.5 67.3 69.5 73.0 55.7 85.8 95.4 51.1 74.4 54.1 77.8 52.4 69.1 53.5 64.3 82.7 55.7 70.5 87.5 50.7 72.3 59.5 作出茎叶图. 解 利用PROC UNIVARIATE过程,可作茎叶图.为简化,将小数点后数据四舍五入,以十位数为茎,个位数为叶,并把每茎分裂成两行:一行的叶取0,1,2,3,4,另一行取5,6,7,8,9.计算结果数据从大到小排列.

  16. 频数 9 |5 1 9 | 8 |6 8 2 8 |2 3 4 3 7 |8 8 2 7 |0 0 0 1 2 3 4 7 6 |7 9 2 6 |0 4 4 3 5 |5 6 6 3 5 |1 1 2 3 3 4 4 7 2. 箱线图 画一个矩形,两个端边分别是 ,中间两道线,处于 位置.两端向外各画一道直线,分别到上截断点 ,下截断点 .异常值用“×”号表示.

  17. 例1.15作例1.11的箱线图. 解 下、上截断点:36.5,120.5.异常值25. 3.五数总括

  18. 1.2.3 正态性检验与分布拟合检验 • 检验的 值方法 设检验问题的显著水平为 .检验统计量为 .当假设 成立时,有样本算得的检验统计量的值为 . • 设 (双侧检验),则当 , 拒 • 绝 ;当 ,接受 . • 检验法 • ——样本容量 ——分组数 • ——落入第i组频数, ——落入第 组理论频数 • ——待估参数数 充分大

  19. 假设检验问题 不是 其中 为指定的总体分布 值方法: 则对给定的显著水平 ,当 ,拒绝 ,当 ,接受 2. Kolmogorov-Smirnov检验法 假设检验问题仍如上, — 经验分布函数 设由样本 算得的 值为 ,又 则对给定显著水平 ,当 , 拒绝 ,当 ,接受 . 用PROC CAPABILITY 过程可进行 检验与Kolmogorov-Smirnov检验.

  20. 3.正态性W检验方法 设样本观测值为 ,其次续统计量为 当n偶, 当n奇 , ( 系数) :总体为正态分布 总体非正态分布 总有 , 成立时,W值接近于1. 当 ;拒绝 ;当 ,接受 . 用PROC UNIVARIATE 过程可得W值与p值,从而完成正态性W检验.

  21. 例1.19(续例1.2) 对例1.2数据,作 (1) 正态性W检验; (2) 关于正态分布假设的 检验; (3) 关于正态分布假设的Kolmogorov-Smirnov检验 解 (1) 由PROC UNIVARIATE 过程,算得 W=0.9827 p=p{W≤0.9827}=0.6709 取 ,因p=0.5382 > ,接受正态性假设. (2)由PROC UNIVARIATE 过程,算得 =4.0784 p=P{ ≥0.4784}=0.5382 取 ,因 p=0.5328> ,接受正态性假设. (3)由PROC UNIVARIATE 过程,算得 D=0.0655 , p={D≥0.0655}=0.15 取 ,因 p=0.15> ,接受正态性假设

  22. 1.3 多元数据的数字特征与相关分析 1.3.1 二元数据的数字特征及相关系数 ——二元总体,观测数据 观测矩阵 ——均值向量 的协方差 的协方差 的协方差 ——协方差矩阵 相关系数

  23. ① ,正相关 ② , 负相关 ③,完全线性相关 ④ ,不相关 二元总体 分布函数 协方差 总体相关系数 当 大, 假设检验 成立时, ~ 值, 设显著水平 当 ,拒绝 ; 接受 上述定义的相关系数成为Pearson相关系数 设 ,则其次序统计量 , 若 ,则称是 在样本中的秩,记为 .秩统计量.

  24. 例 -0.8 -3.1 1.1 -5.2 4.2 次序统计量 -5.2 -3.1 -0.8 1.1 4.2 秩统计量3 2 4 1 5 例-0.8 -3.1 0.8 秩统计量 2 1 3 或 3 1 2 对相同观测值 取值为秩平均值: 2.5 1 2.5 样本, 秩统计量 秩统计量 Spearman相关系数定义为两组秩统计量的相关系数,记为 ,可证

  25. 例1.21某种矿石成分A,B,A的含量百分数x(%),B的含量百分数y(%):例1.21某种矿石成分A,B,A的含量百分数x(%),B的含量百分数y(%): (1)计算Pearson相关系数,作假设检验 (2)计算Spearman 相关系数,作上述检验 解 由 PROC CORR 过程,得 (1) , 值为 ,取 拒绝 ,认为 有实际意义 (2) 取 拒绝 ,认为 有实际意义

  26. 1.3.2 多元数据数字特征及相关矩阵 是元总体,样本数据 第i个观测数据 ,称样品 观测矩阵 第i行构成的量 有 1) 第 行 的均值 2) 第 行 的方差

  27. 的Spearman相关系数 , Spearman相关矩阵 Spearman相关矩阵具有稳健性 数据观测矩阵 数据的标准化处理 样品 ,变量观测数据 的协方差阵即 的相关阵.

  28. (3) 的协方差 均值向量 协方差矩阵 (4) 的相关系数 相关矩阵 非负定矩阵 刻画变量之间线性联系的密切程度.

  29. 1.3.3 总体的数字特征及相关矩阵 元总体. 总体分布函数 总体概率密度 总体均值向量 总体 的协方差矩阵 设 的相关系数为 总体 的相关矩阵

  30. 1) 特别 2) 特别 分别是 的相合估计,当 充分大时, 简单随机样本 ① 与总体 有相同分布; ② 是相互独立的 元随机向量.

  31. 的无偏估计分别是 : 证 记 对于随机向量 , 总有 故, 可证(自证) 故 得 从而 是 的相合估计:

  32. 元正态分布 • 其中 • 性质: • 元常向量 • 则 • 2) 划分 • 作相应划分 • 则 • 3) 相互独立

  33. 的最大似然估计 设 是来自正态总体 的简单随机样本,其联合概率密度. 称似然函数,它是 的函数,若 满足 ,则 称 的最大似然估计 定理: 各为 的最大似然估计 (证略). 注: 的最大似然估计为 . 大时, 因 是 的无偏估计,仍以 作为 的估计.

  34. 例1.23对某少数民族的21位同袍测量血液中四种成份,的含量,结果如下:例1.23对某少数民族的21位同袍测量血液中四种成份,的含量,结果如下: 求 的无偏估计. 解 由PROC CORR 过程,计算得到

  35. 例1.24(续例1.23) 对例1.23数据,计算中位数向量 相关矩阵及Spearman相关矩阵并进行分析 . 解 由PROC CORR过程,算得 及对应p值如下: 若取, 其 值 ,认为 与 , 与 , 与 相关,其相关系数无明显统计意义.

  36. Spearman相关矩阵 及对应 值 取 , 的元素 对应 值皆小于 ,故认为 具有统计意义.

More Related