610 likes | 704 Views
数据处理与分析. 数据处理与分析. 为何要进行数据处理与分析? 基于事实和数据的六西格玛管理保证了过程持续改进的有效性。 通过误差分析,评判试验数据的可靠性; 确定影响试验结果的因素主次,抓住主要矛盾,提高试验效率; 确定试验因素与试验结果之间存在的近似函数关系,并能对试验结果进行预测和优化; 试验因素对试验结果的影响规律,为控制试验提供思路; 确定最优试验方案或配方。. 数据处理与分析. 试验设计的目的 : 合理地安排试验 , 力求用较少的试验次数获得较好结果 例:某试验研究了 3 个影响因素: A : A1 , A2 , A3
E N D
数据处理与分析 • 为何要进行数据处理与分析? 基于事实和数据的六西格玛管理保证了过程持续改进的有效性。 • 通过误差分析,评判试验数据的可靠性; • 确定影响试验结果的因素主次,抓住主要矛盾,提高试验效率; • 确定试验因素与试验结果之间存在的近似函数关系,并能对试验结果进行预测和优化; • 试验因素对试验结果的影响规律,为控制试验提供思路; • 确定最优试验方案或配方。
数据处理与分析 试验设计的目的: • 合理地安排试验,力求用较少的试验次数获得较好结果 例:某试验研究了3个影响因素: A:A1,A2,A3 B:B1,B2,B3 C:C1,C2,C3 全面试验:27次 正交试验:9次
数据处理与分析 主要内容: 1.均值检验 2.比率检验 3.非参数检验 4.相关分析与回归分析 5.变异源分析 6.测量系统分析 7.统计过程控制 8.试验设计
假设检验 建立假设 H0 原假设 H1备选假设
假设检验 单总体均值检验 单样本均值检验 已知待检样本均值(目标值)为20,标准差为0.1。随机抽取同一批次板检测,共计检测16复孔,评估值见下表。问能否认为均值仍为20?
假设检验 单总体均值检验 Minitab 操作 统计>基本统计量>单样本Z 分析结果如下: 结果: 均值分析.MTW 单样本 Z: 检测值 mu = 20 与 ≠ 20 的检验 假定标准差 = 0.1 平均值 变量 N 平均值 标准差 标准误 95% 置信区间 Z P 检测值 16 20.0669 0.1026 0.0250 (20.0179, 20.1159) 2.68 0.007 P值<0.05 存在显著差异,因此我们不能认为此组数据均值仍为20.
假设检验 单总体均值检验 当样本标准差δ未知时,用δ的估计值S代替Z统计量中的δ而得到t统计量。 例如:上一实例,当总体标准差未知时,可使用样本标准差检验,使用t分布检验。 操作:统计>基本统计量>单样本t 检测结果:p=0.020 < 0.05 结论同上
假设检验 单总体均值检验 单总体均值检验需要验证的条件 1.数据观测值是相互独立的。 2. 数据必须服从正态分布 1) 独立性检验 此游程数r=6 在实际应用中,当样本量<25时 使用:统计>质量工具>运行图 计算游程数
假设检验 单总体均值检验 r=10 查表可得 4<r<14 数据相互独立
假设检验 单总体均值检验 当样本量>25时,先求出中位数,再以中位数为界,进行游程检验 使用:统计>基本统计量>图形化汇总 求出中位数 统计>非参数统计>游程检验 计算p值 举例:独立性检验.mtw 中位数为:76 统计>非参数统计>游程检验 游程检验: 投递时间 投递时间 游程检验 游程高于及低于的分界值 K = 76 观测到的总游程数 = 11 P 值 = 0.123 > 0.05 数据为相互独立的
假设检验 单总体均值检验 P=0.65>0.05 数据为正态性分布 2)正态性检验 统计>基本统计量>正态性检验 统计>基本统计量>图形化汇总
双正态总体均值检验 普通独立样本 配对样本 介绍下通常实际工作中最常遇到的情况:双样本 δ1、 δ2未知,但δ1= δ2 我们通常称之为双样本t检验。能够满足双样本t检验必须满足以下三个条件 1)两组样本内相互独立,两组之间也相互独立 2)两组数据皆来自正态分布总体 3) 两总体标准差相等 双正态总体均值检验
双正态总体均值检验 问改进前后检测浓度值是否有明显变化? 例:某项目改进后,为检测改进前后对检测值有无明显影响。分别用改进前后的两块板检测同一份样本,检测浓度结果如下:
双正态总体均值检验 P>0.05 两样本总体方差相等 说明:F 检验适合正态数据 Levene:是以样本中位数而非样本均值为基准,在小样本时更稳健,适于非正态连续数据。 双样本等方差检验 统计>基本统计量>双方差
双正态总体均值检验 统计>基本统计量>双样本(t) 双样本 T 检验和置信区间: 板1, 板2 N 平均值 标准差 标准误 板1 10 182.5 17.3 5.5 板2 9 169.9 14.7 4.9 差值 = mu (板1) - mu (板2) 差值估计: 12.61 差值的 95% 置信区间: (-3.03, 28.26) 差值 = 0 (与 ≠) 的 T 检验: T 值 = 1.70 P 值 = 0.107 自由度 = 17 两者都使用合并标准差 = 16.1380 结论:改进前后均值无显著差异。
双正态总体均值检验 问改进前后检测浓度值是否有明显变化? 刚才的实例,若实验方案为分别检测10份样本,每份样本的对应值如下:
双正态总体均值检验 统计>基本统计量>配对t 配对 T 检验和置信区间: 板1, 板2 平均差的 95% 置信区间: (3.45, 22.55) 平均差 = 0 (与 ≠ 0) 的 T 检验: T 值 = 3.14 P 值 = 0.014 结论:改进前后均值有显著差异。 注:双样本均值也可以用差值进行单样本均值检验。
单因子ANOVA检验 (analysis of variance) 为了考察温度对标记得率的影响。在一个适合可控的范围内(15-37℃)选取了四种不同的温度进行试验,在同一温度下进行了5次试验。希望在显著性水平0.05下,判断温度对标记得率是否有显著影响。
单因子ANOVA检验 统计>方差分析>单因子 统计>方差分析>单因子(未堆叠存放)
单因子ANOVA检验 结论:不同温度对标记得率有显著影响。
单因子ANOVA检验 分析:从图中可以明显看出25℃较其他组高。但各组之间是否存在明显差异。例如,能否得出19℃的标记得率较37℃得率高?
单因子ANOVA分析多重比较方法 统计>方差分析>单因子
单因子ANOVA分析多重比较方法 结论:温度25℃得率与15℃及37℃得率存在显著差异,其余各组之间无明显差异。
变异源性分析 (Source of variation) 生产出的产品各项性能变异越小,表明该过程生产出的产品性能越好。 你了解过程变异是如何产生的?造成这种变异的最主要的因素是什么? 例如:客户测试出的血样结果有问题,取回血样后公司自检又符合要求,你觉得导致这种问题存在的最重要的影响因素在哪里?
变异源性分析 例:为改进产品性能,考察产品中影响检测结果的关键因素(仪器和检测板)。指定一名熟练的操作员,使用三批试剂盒,测试同一份样本。每批次板上测试三复孔,分别在三台仪器(anytest)上测试荧光值后,评估结果。
变异源性分析 原始数据
变异源性分析 结果分析: 多变异图 统计>质量工具>多变异图
变异源性分析 一般线性模型的方差分量计算: 统计>方差分析>一般线性模型 注意:记得勾选“结果”中的“显示期望均方和方差分量”。
变异源性分析 方差分量,使用调整的 SS 来源 估计值 批次板 0.03277 仪器 0.02272 批次板*仪器 0.00253 误差 0.00632
变异源性分析 绘制Pareto图 统计 >质量工具> Pareto图
试验设计 DOE (design of experiment) 试验设计的基本原则 1)完全重复 一个处理要施予多个试验单元。 2)随机化 以完全随机的方式安排各次试验的顺序。 3) 区组化 一组同质性的试验单元称为一个区组,将全部试验单元划分为若干区组的方法称之为区组化。 试验设计中应遵照下列原则:能分区组者分区组,不能分区组者随机化。
试验设计 DOE (design of experiment) 试验设计的策划与安排 1)用部分因子设计进行因子筛选 2)用全因子试验设计法对因子效应和交互作用进行全面分析 3)用响应曲面方法(RSM)确定回归关系并求出最优设置 4)用稳健参数设计方法(田口设计)寻求望目特性的最优设置。
全因子设计 Full factorial design:所有因子的所有水平的所有组合都至少进行一次的试验设计。 2水平全因子的试验 举例:改进热处理工艺提高钢板断裂强度问题。合金钢板经热处理后将提高抗断裂性能。我们选取了4个因子,通过试验,以确定哪些因子影响确实是显著的,进而确定出最佳的工艺条件。试验水平准备安排如下: A: 加热温度,低水平:820,高水平860(摄氏度) B: 加热时间,低水平:2,高水平3(分钟) C:转换时间,低水平:1.4,高水平1.6(分钟) C:保温时间,低水平:50,高水平60(分钟)
全因子设计 由于需要细致考虑各因子及其交互作用,我们决定采用全因子试验,并在中心点出进行3次试验,一共19次试验(24+3),该如何安排试验呢? 统计>DOE>因子>创建因子设计
全因子设计 生成的试验方案
全因子设计分析 统计>DOE>因子>分析因子设计
全因子设计分析 1.分析的第一要点是分析评估回归的总效果 (1)看ANOVA表中的总效果 对应的“主效应”和“2因子交互作用”中至少有一项的p值<0.05,则可判定本模型总得效果是有效的。 (2)看ANOVA表中的失拟现象 判定失拟项的p值。若大于0.05即可判定本模型没有失拟现象。 (3)看ANOVA表中的弯曲项 判定失拟项的p值。若大于0.05即可判定本模型没弯曲现象。
全因子设计分析 2.分析的第二要点是分析评估回归的总效果 (1)两个确定系数R2及R2adj 要求两值越接近于1越好,同时两者之差越小说明模型越好。 (2)对于S值或者S2的分析 哪个模型能使之达到最小,哪个模型就最好
全因子设计分析 3.分析的第三要点是分析评估各项效应的显著性
全因子设计分析 结论:显著因子为 A B D BD
全因子设计分析 DOE分析五步法的第二步是进行残差诊断
全因子设计分析 DOE分析五步法的第三步是:判断模型要改进么? 1.残差对拟合预测值的诊断图中,是否有不齐性或弯曲的情形? 2.残差对自变量的诊断图中,是否有弯曲的情形? 3.基于各项效应及回归系数计算的显著性分析中是否有不显著项。 总之,凡是发现模型需要修改时,就要返回最初的第一步,重新建立模型,返回前面的所有各步骤。
全因子设计分析 最后确定的回归方程 修改模型后重新分析