1 / 61

数据处理与分析

数据处理与分析. 数据处理与分析. 为何要进行数据处理与分析? 基于事实和数据的六西格玛管理保证了过程持续改进的有效性。 通过误差分析,评判试验数据的可靠性; 确定影响试验结果的因素主次,抓住主要矛盾,提高试验效率; 确定试验因素与试验结果之间存在的近似函数关系,并能对试验结果进行预测和优化; 试验因素对试验结果的影响规律,为控制试验提供思路; 确定最优试验方案或配方。. 数据处理与分析. 试验设计的目的 : 合理地安排试验 , 力求用较少的试验次数获得较好结果 例:某试验研究了 3 个影响因素: A : A1 , A2 , A3

jana-joseph
Download Presentation

数据处理与分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 数据处理与分析

  2. 数据处理与分析 • 为何要进行数据处理与分析? 基于事实和数据的六西格玛管理保证了过程持续改进的有效性。 • 通过误差分析,评判试验数据的可靠性; • 确定影响试验结果的因素主次,抓住主要矛盾,提高试验效率; • 确定试验因素与试验结果之间存在的近似函数关系,并能对试验结果进行预测和优化; • 试验因素对试验结果的影响规律,为控制试验提供思路; • 确定最优试验方案或配方。

  3. 数据处理与分析 试验设计的目的: • 合理地安排试验,力求用较少的试验次数获得较好结果 例:某试验研究了3个影响因素: A:A1,A2,A3 B:B1,B2,B3 C:C1,C2,C3 全面试验:27次 正交试验:9次

  4. 数据处理与分析 主要内容: 1.均值检验 2.比率检验 3.非参数检验 4.相关分析与回归分析 5.变异源分析 6.测量系统分析 7.统计过程控制 8.试验设计

  5. 假设检验 建立假设 H0 原假设 H1备选假设

  6. 假设检验 单总体均值检验 单样本均值检验 已知待检样本均值(目标值)为20,标准差为0.1。随机抽取同一批次板检测,共计检测16复孔,评估值见下表。问能否认为均值仍为20?

  7. 假设检验 单总体均值检验 Minitab 操作 统计>基本统计量>单样本Z 分析结果如下: 结果: 均值分析.MTW 单样本 Z: 检测值 mu = 20 与 ≠ 20 的检验 假定标准差 = 0.1 平均值 变量 N 平均值 标准差 标准误 95% 置信区间 Z P 检测值 16 20.0669 0.1026 0.0250 (20.0179, 20.1159) 2.68 0.007 P值<0.05 存在显著差异,因此我们不能认为此组数据均值仍为20.

  8. 假设检验 单总体均值检验 当样本标准差δ未知时,用δ的估计值S代替Z统计量中的δ而得到t统计量。 例如:上一实例,当总体标准差未知时,可使用样本标准差检验,使用t分布检验。 操作:统计>基本统计量>单样本t 检测结果:p=0.020 < 0.05 结论同上

  9. 假设检验 单总体均值检验 单总体均值检验需要验证的条件 1.数据观测值是相互独立的。 2. 数据必须服从正态分布 1) 独立性检验 此游程数r=6 在实际应用中,当样本量<25时 使用:统计>质量工具>运行图 计算游程数

  10. 假设检验 单总体均值检验 r=10 查表可得 4<r<14 数据相互独立

  11. 假设检验 单总体均值检验 当样本量>25时,先求出中位数,再以中位数为界,进行游程检验 使用:统计>基本统计量>图形化汇总 求出中位数 统计>非参数统计>游程检验 计算p值 举例:独立性检验.mtw 中位数为:76 统计>非参数统计>游程检验 游程检验: 投递时间 投递时间 游程检验 游程高于及低于的分界值 K = 76 观测到的总游程数 = 11 P 值 = 0.123 > 0.05 数据为相互独立的

  12. 假设检验 单总体均值检验 P=0.65>0.05 数据为正态性分布 2)正态性检验 统计>基本统计量>正态性检验 统计>基本统计量>图形化汇总

  13. 双正态总体均值检验 普通独立样本 配对样本 介绍下通常实际工作中最常遇到的情况:双样本 δ1、 δ2未知,但δ1= δ2 我们通常称之为双样本t检验。能够满足双样本t检验必须满足以下三个条件 1)两组样本内相互独立,两组之间也相互独立 2)两组数据皆来自正态分布总体 3) 两总体标准差相等 双正态总体均值检验

  14. 双正态总体均值检验 问改进前后检测浓度值是否有明显变化? 例:某项目改进后,为检测改进前后对检测值有无明显影响。分别用改进前后的两块板检测同一份样本,检测浓度结果如下:

  15. 双正态总体均值检验 P>0.05 两样本总体方差相等 说明:F 检验适合正态数据 Levene:是以样本中位数而非样本均值为基准,在小样本时更稳健,适于非正态连续数据。 双样本等方差检验 统计>基本统计量>双方差

  16. 双正态总体均值检验 统计>基本统计量>双样本(t) 双样本 T 检验和置信区间: 板1, 板2 N 平均值 标准差 标准误 板1 10 182.5 17.3 5.5 板2 9 169.9 14.7 4.9 差值 = mu (板1) - mu (板2) 差值估计: 12.61 差值的 95% 置信区间: (-3.03, 28.26) 差值 = 0 (与 ≠) 的 T 检验: T 值 = 1.70 P 值 = 0.107 自由度 = 17 两者都使用合并标准差 = 16.1380 结论:改进前后均值无显著差异。

  17. 双正态总体均值检验 问改进前后检测浓度值是否有明显变化? 刚才的实例,若实验方案为分别检测10份样本,每份样本的对应值如下:

  18. 双正态总体均值检验 统计>基本统计量>配对t 配对 T 检验和置信区间: 板1, 板2 平均差的 95% 置信区间: (3.45, 22.55) 平均差 = 0 (与 ≠ 0) 的 T 检验: T 值 = 3.14 P 值 = 0.014 结论:改进前后均值有显著差异。 注:双样本均值也可以用差值进行单样本均值检验。

  19. 单因子ANOVA检验 (analysis of variance) 为了考察温度对标记得率的影响。在一个适合可控的范围内(15-37℃)选取了四种不同的温度进行试验,在同一温度下进行了5次试验。希望在显著性水平0.05下,判断温度对标记得率是否有显著影响。

  20. 单因子ANOVA检验 统计>方差分析>单因子 统计>方差分析>单因子(未堆叠存放)

  21. 单因子ANOVA检验 结论:不同温度对标记得率有显著影响。

  22. 单因子ANOVA检验 分析:从图中可以明显看出25℃较其他组高。但各组之间是否存在明显差异。例如,能否得出19℃的标记得率较37℃得率高?

  23. 单因子ANOVA分析多重比较方法 统计>方差分析>单因子

  24. 单因子ANOVA分析多重比较方法 结论:温度25℃得率与15℃及37℃得率存在显著差异,其余各组之间无明显差异。

  25. 变异源性分析 (Source of variation) 生产出的产品各项性能变异越小,表明该过程生产出的产品性能越好。 你了解过程变异是如何产生的?造成这种变异的最主要的因素是什么? 例如:客户测试出的血样结果有问题,取回血样后公司自检又符合要求,你觉得导致这种问题存在的最重要的影响因素在哪里?

  26. 变异源性分析 例:为改进产品性能,考察产品中影响检测结果的关键因素(仪器和检测板)。指定一名熟练的操作员,使用三批试剂盒,测试同一份样本。每批次板上测试三复孔,分别在三台仪器(anytest)上测试荧光值后,评估结果。

  27. 变异源性分析 原始数据

  28. 变异源性分析 结果分析: 多变异图 统计>质量工具>多变异图

  29. 变异源性分析 一般线性模型的方差分量计算: 统计>方差分析>一般线性模型 注意:记得勾选“结果”中的“显示期望均方和方差分量”。

  30. 变异源性分析 方差分量,使用调整的 SS 来源 估计值 批次板 0.03277 仪器 0.02272 批次板*仪器 0.00253 误差 0.00632

  31. 变异源性分析 绘制Pareto图 统计 >质量工具> Pareto图

  32. 试验设计 DOE (design of experiment) 试验设计的基本原则 1)完全重复 一个处理要施予多个试验单元。 2)随机化 以完全随机的方式安排各次试验的顺序。 3) 区组化 一组同质性的试验单元称为一个区组,将全部试验单元划分为若干区组的方法称之为区组化。 试验设计中应遵照下列原则:能分区组者分区组,不能分区组者随机化。

  33. 试验设计 DOE (design of experiment) 试验设计的策划与安排 1)用部分因子设计进行因子筛选 2)用全因子试验设计法对因子效应和交互作用进行全面分析 3)用响应曲面方法(RSM)确定回归关系并求出最优设置 4)用稳健参数设计方法(田口设计)寻求望目特性的最优设置。

  34. 全因子设计 Full factorial design:所有因子的所有水平的所有组合都至少进行一次的试验设计。 2水平全因子的试验 举例:改进热处理工艺提高钢板断裂强度问题。合金钢板经热处理后将提高抗断裂性能。我们选取了4个因子,通过试验,以确定哪些因子影响确实是显著的,进而确定出最佳的工艺条件。试验水平准备安排如下: A: 加热温度,低水平:820,高水平860(摄氏度) B: 加热时间,低水平:2,高水平3(分钟) C:转换时间,低水平:1.4,高水平1.6(分钟) C:保温时间,低水平:50,高水平60(分钟)

  35. 全因子设计 由于需要细致考虑各因子及其交互作用,我们决定采用全因子试验,并在中心点出进行3次试验,一共19次试验(24+3),该如何安排试验呢? 统计>DOE>因子>创建因子设计

  36. 全因子设计

  37. 全因子设计 生成的试验方案

  38. 试验设计分析五步法流程图

  39. 全因子设计分析 统计>DOE>因子>分析因子设计

  40. 全因子设计分析

  41. 全因子设计分析

  42. 全因子设计分析

  43. 全因子设计分析 1.分析的第一要点是分析评估回归的总效果 (1)看ANOVA表中的总效果 对应的“主效应”和“2因子交互作用”中至少有一项的p值<0.05,则可判定本模型总得效果是有效的。 (2)看ANOVA表中的失拟现象 判定失拟项的p值。若大于0.05即可判定本模型没有失拟现象。 (3)看ANOVA表中的弯曲项 判定失拟项的p值。若大于0.05即可判定本模型没弯曲现象。

  44. 全因子设计分析 2.分析的第二要点是分析评估回归的总效果 (1)两个确定系数R2及R2adj 要求两值越接近于1越好,同时两者之差越小说明模型越好。 (2)对于S值或者S2的分析 哪个模型能使之达到最小,哪个模型就最好

  45. 全因子设计分析 3.分析的第三要点是分析评估各项效应的显著性

  46. 全因子设计分析 结论:显著因子为 A B D BD

  47. 全因子设计分析 DOE分析五步法的第二步是进行残差诊断

  48. 全因子设计分析

  49. 全因子设计分析 DOE分析五步法的第三步是:判断模型要改进么? 1.残差对拟合预测值的诊断图中,是否有不齐性或弯曲的情形? 2.残差对自变量的诊断图中,是否有弯曲的情形? 3.基于各项效应及回归系数计算的显著性分析中是否有不显著项。 总之,凡是发现模型需要修改时,就要返回最初的第一步,重新建立模型,返回前面的所有各步骤。

  50. 全因子设计分析 最后确定的回归方程 修改模型后重新分析

More Related