800 likes | 1.52k Views
均匀设计和均匀设计软件. Uniform Design and it ’ s Software 王玉方 2003 年 6 月 16 日. 报告的主要内容. 均匀设计的概念、特点、原理 均匀设计的具体应用方法 均匀设计软件. 关键词. 均匀设计 Uniform Design 试验法 Experimentation 均匀设计软件 Uniform Design Software. 1 什么是均匀设计. 均匀设计的概念 均匀设计的特点. 1.1 均匀设计的概念.
E N D
均匀设计和均匀设计软件 Uniform Design and it’s Software 王玉方 2003年6月16日
报告的主要内容 • 均匀设计的概念、特点、原理 • 均匀设计的具体应用方法 • 均匀设计软件
关键词 • 均匀设计 Uniform Design • 试验法 Experimentation • 均匀设计软件 Uniform Design Software
1 什么是均匀设计 • 均匀设计的概念 • 均匀设计的特点
1.1 均匀设计的概念 均匀设计(Uniform Design)是一种试验设计方法(Experimental Design Method),称为均匀设计(Uniform Design)或均匀设计试验法(Uniform Design Experimentation)。所有的试验设计方法本质上都是在试验的范围内给出挑选代表性点的方法,均匀设计也不例外,它是只考虑试验点在试验范围内均匀散布的一种试验设计方法。它由方开泰教授和数学家王元在1978年共同提出,是数论方法中的“伪蒙特卡罗方法”的一个应用。
1.2 均匀设计的特点 均匀设计遵从和具有试验设计方法的共性及本质内容,它能从全面试验点中挑选出部分代表性的试验点,这些试验点在试验范围内充分均衡分散,但仍能反映体系的主要特征。例如正交设计 (Orthogonal Design)是根据正交性来挑选代表点的,它在挑选代表点时有两个特点: 均匀分散,整齐可比。“均匀分散”使试验点均衡地布在试验范围内,让每个试验点有充分的代表性,“整齐可比” 使试验结果的分析十分方便,易于估计各因素的主效应和部分交互效应,从而可分析各因素对指标的影响大小和变化规律。但是,为了
1.2 均匀设计的特点(续1) 照顾“整齐可比”,它的试验点并没有能做到充分 “均匀分散”;为了达到“整齐可比”,试验点的数目就必须比较多(例如用正交表安排每因素为q个水平数的多因素试验,试验的次数为rq2,r为自然数)。均匀设计只考虑试验点在试验范围内充分“均匀散布”而不考虑“整齐可比”,因此它的试验布点的均匀性会比正交设计试验点的均匀性更好,使试验点具有更好的代表性。由于这种方法不再考虑正交设计中为“整齐可比”而设置的实验点,因而大大减少了试验次数,这是它与正交试验设计法
1.2 均匀设计的特点(续2) 的最大不同之处。采用均匀设计,每个因素的每个水平仅做一次试验,当水平数增加时,试验数随水平数增加而增加,若采用正交设计,试验数则随水平数的平方数而增加。例如用正交设计需做961次5因素31水平的试验,采用均匀设计只需做31次试验,其效果基本相同。由于均匀设计不再考虑正交试验的整齐可比性,因此其试验结果的处理要采用回归分析方法—线性回归或多项式回归分析。回归分析中可对模型中因素进行回归显著性检验,根据因素偏回归平方和的大小确定该因素对回归的重要性;在各因素间无相关关系
1.2 均匀设计的特点(续3) 时,因素偏回归平方和的大小也体现了它对试验指标影响的重要性。这些一般都要借助计算机才能完成。
2 均匀设计的原理 • 均匀设计表和使用表各部分的含义 • 均匀设计表的构造方法 • 均匀设计表的使用表的产生方法 • 混合水平均匀设计表的产生方法
2.1 均匀设计表和使用表各部分的含义 均匀设计和正交设计相似,也是通过一套精心设计的表来进行试验设计的。均匀设计表用Un(qs)或 Un*(qs)表示,其中U代表均匀设计,n代表要做的试验次数,q代表每个因素有q个水平,s代表该表有s列,有*和无*代表的是用两种不同类型的均匀设计表,*类型表是由Un+1类型的表构造形成的,后面再具体说明其形成方法。以下用均匀设计表U11(116)、U9*(94)和它们各自的使用表介绍一下表的各部分代表的意义(表中未用列已经删除):
均匀设计表U11(116)和它的使用表 均匀设计表 U11(116) U11(116)的使用表
均匀设计表U9*(94)和它的使用表 均匀设计表U9*(94) U9*(94)的使用表
2.2 均匀设计表的构造方法 用好格子点法(Good Lattice Point)构造均匀设计表的方法如下: (1) 定义试验次数n,寻求比n小的整数h,且使n和h的最大公约数为1,符合这些条件的正整数组成一个向量h=(h1,…,hm); (2) 均匀设计表的第j列由uij=ihj[mod n](同余运算) 产生,若jhi超过 n,则用它减去 n的一个适当的倍数,使差落在[1,n]之中。uij可以递推来生成:u1j=hj,ui+1,j=uij+hj(若uij+hj≤n)或者ui+1,j=uij+hj-n(若uij+hj>n),这里i=1,…,n-1。
2.2 均匀设计表的构造方法(续1) 用上述方法生成的表记作Un(nm),例如n=11时,可以形成象前面介绍的U11(116)表。向量h称为该表的生成向量,可以将Un(nm)记成Un(h)。给定n,相应的 h可以用上面的方法求得,从而 m也就确定了,所以 m是 n的一个函数,称为欧拉函数,记为E(n)。这个函数告诉我们均匀设计表最多可能有多少列。根据数论结果可知:(1)当n为素数时,E(n-1)=n-1;(2)当n为素数幂时,即n可表示成n=pl,这里p为素数,l为正整数,E(n)=n(1-1/p),如n=9,可表为n=32,于是 E(9)=9(1-1/3)=6,即U9最多可以有6列;(3)若 n不属于上述两种情况,
2.2 均匀设计表的构造方法(续2) 这时 n一定可以表示为不同数的方幂积,即:n=p1l1p2l2…psls,这里p1,…,ps 为不同的素数,l1,…,ls为正整数,这时E(n)=n(1-1/p1)…(1-1/ps),例如n=12可表为n=22×3,于是E(12)=12(1-1/2)(1-1/3)=4,即U12最多可能有4列。上述的三种情形中以 n为素数时最好,最多可以有n-1列,非素数时表的结构中永远不可能有 n-1列,比如E(6)=2,则最多只能安排两个试验因素,为此,王元和方开泰建议,用Un+1表划去最后一行构造形成新的Un*表,如U6*(66)可有6列之多。
2.3 均匀设计表的使用表的产生方法 每个均匀设计表都规定了它的使用表,用于进行试验各因素水平组合的具体安排。这样做的原因是:从均匀设计表Un(nm)中选出s列,则可能的选择有(ms)种,但不同列组合起来所代表的点集的均匀性是不同的,所设计试验的效果也是不同的,因而如何选用均匀设计表中的列必须引入一个判别表的均匀性好坏的准则。度量均匀性的准则很多,其中偏差(discrepancy)是使用历史最久、最为广泛接受的方法,均匀设计也同样采用偏差来衡量其设计表的均匀性,偏差越小,则设计表的均匀性越好。
2.3 均匀设计表的使用表的产生方法(续1) 由于这个报告的目的是向大家介绍这种试验方法,而且关于偏差计算的内容也很多,因而关于均匀性偏差的计算方法和具体产生使用表的方法在此不做介绍(有特别需要者可以参见参考文献[1] )使用者只需要按每个均匀设计表所附的使用表进行试验安排即可。比如,欲进行一个3因素、每因素13水平的试验,可以选用均匀设计表U13*(134),使用表中推荐的列为1,3,4,则所有13次试验时各因素的水平组合为:
2.3 均匀设计表的使用表的产生方法(续2)均匀设计表U13*(134)和它的使用表及3因素时各次试验的因素水平组合方式
2.4 混合水平均匀设计表的产生方法 上面介绍的是各试验因素水平数相等情况下的均匀设计表,若各因素的水平数不等,则需要采用混合水平的设计表进行试验设计。将均水平的设计表转换为混合水平的表的方法可采用常用的拟水平法。一个试验次数为 n的设计表,试验因素中某个或几个因素的水平数不足n,为m(n 必须为 m的整数倍),则将设计表中代表该因素的水平合并,具体的合并方法是:设 i为该试验因素的第 i水平(i=1,2,…,n),将 i从小到大分成 m组,每组有n/m个i,用 i所在的组的数值 m代替设计表中的 i,这样就形成了混合水平设计表混合水平的设计表的例子如下:
2.4 混合水平均匀设计表的产生方法(续1)用U10*(108)产生3因素的U10(10×52)的过程用U11构造U10→计算出U10中的3列→形成拟水平均匀设计表U10(10×52)
3 均匀设计的应用方法 • 试验设计的共性问题 • 均匀设计的应用方法 • 具体问题的解决方法
3.1 试验设计的共性问题 试验设计(如正交试验设计、回归正交试验设计、旋转设计、D-最优设计等)过程必然离不开试验基础内容的构思(试验的评价指标;试验的因素、水平的选择和试验次数的拟定)、试验结果数据的分析等共性方面的问题。试验的因素和水平的选择关系到一个试验能否成功的关键,下列的注意事项和建议对使用试验设计(当然也包括均匀设计)的人员应该是有益的:
3.1 试验设计的共性问题(续1) (1) 因素的含义:在一个试验过程中,影响试验指标的因素通常是很多的,通常固定的试验因素在试验方案中并不称为因素,只有变化的因素才称为因素; (2) 关于因素数量:在一项试验中,因素不宜选得太多(如超过10个),那样可能会造成主次不分;相反地,因素也不宜选得太少(如只选定一、二个因素),这样可能会遗漏重要的因素,或遗漏因素间的交互作用,使试验的结果达不到预期的目的;
3.1 试验设计的共性问题(续2) (3) 关于各因素的水平范围:试验水平范围应当尽可能大一点。如果试验在实验室进行,试验范围大比较容易实现;如果试验直接在生产中进行,则试验范围不宜太大,以防产生过多次品,或产生危险。试验范围太小的缺点是不易获得比已有条件有显著改善的结果; (4) 关于因素的水平数:若试验水平范围允许大一些,则每一因素的水平个数最好适当多一些;
3.1 试验设计的共性问题(续3) (5) 关于因素的水平间隔:水平间隔的大小和生产控制精度是密切相关的。如不切实际地降低试验的水平间隔,在试验范围确定了的情况下必然会引起试验次数的增加;而因素水平间隔太大,其试验结果的中不确定性成分也必然增加; (6) 因素和水平的含意可以是广义的:例如五种棉花用于织同一种布,要比较不同棉花影响布的质量的效应,这时“棉花品种”可设定为一个因素,五种棉花就是该因素下的五个水平。
3.2 均匀设计的应用方法 均匀设计的具体应用过程一般分以下六个步骤: (1) 确定试验指标、因素、因素水平范围和因素水平数(这是关系到试验成功与否的关键); (2) 选择合适的均匀设计表建立分次试验的具体因素水平组合; (3) 执行分次试验并取得每次试验的指标值;
3.2 均匀设计的应用方法(续1) (4) 用分次试验的指标值和取得该指标值的各因素水平值建立试验指标—各因素水平关系的回归模型(这也是均匀设计中的最重要的环节之一); (5) 成功地建立了回归模型后在各试验因素的试验范围内寻找最佳的各因素水平组合并进行该组合的验证试验(也可和步骤6一起进行); (6) 验证试验成功则进一步缩小各因素的试验范围,重新选择均匀设计表(即从步骤2开始)进行各因素范围缩小和水平划分更为细致的新的一轮的试验,进一步寻找最优试验条件组合。一般情况下,此次最优条件即为整个试验的最优条件,试验结束。
3.3 具体问题的解决方法 • 试验次数问题 • 设计表的选择 • 回归模型建立 • 回归模型优化 • 试验参数优化 • 使用均匀设计时需要注意的其它问题
3.3.1 试验次数问题 均匀设计的最大特点是试验次数等于因素的最大水平数,而不是平方的关系,试验次数与被考察的因素的个数有关,建议试验次数选为因素数的3倍左右为宜,这样选择的均匀设计表的均匀性好,也有利于以后的建模和优化。
3.3.2 设计表的选择 选择均匀设计表需要注意以下几点: (1) 要满足试验次数的要求:即确定Un表n的问题,关于这一点,见前面的建议; (2) 表的列数要满足试验因素数的要求:如U6(62)表和U6*(66)表,虽然 n值相同,可前者有2列,只能安排2因素试验,而后者最多却可以安排4因素试验。 (3) Un*表比Un表有更好的均匀性,在确定了试验次数n的情况下,若Un*表也能满足因素数的要求,应优先采用Un*表:Un*表是由Un+1表划去最后一行
3.3.2 设计表的选择(续) 得到的,若n为偶数,Un*表比Un表有更多的列,若 n为奇数,则Un*表的列通常少于Un表。 (4) Un*表比Un表更容易安排试验:Un表的最后一行全部由n组成,而Un*表则不然。例如在化工反应中,若所有因素的水平都按一个方向排列,则在表的最后一行的所有因素的水平值不是最高就是最低,所有高水平组合很容易出现反应过分剧烈甚至爆炸,所有低水平组合则可能出现反应异常甚至不能进行的现象。
3.3.3 回归模型建立 回归模型可分为线性回归模型和非线性模型等。 3.3.3.1 线性回归模型 分为一元线性回归模型和多元线性回归模型。 (1) 一元线性回归模型 模型为 y=a+bx,线性相关的程度常用相关系数来衡量,在某一显著性水平α下,当相关系数的绝对值大于相关系数临界值时才可以认为x和y有线性相关关系。 注意:回归模型不等于回归方程,回归方程只是回归模型中的表达方式的部分,一个完整的模型的表述,包括它的数学表达部分—回归方程,还有因素的组成、因素范围和置信水平、随机误差等内容,本文论述中为了直观的原因,可能将“回归方程”表述为“回归模型”。
3.3.3.1 线性回归模型(续) (2) 多元线性回归模型 当影响因变量y的自变量不止一个时,比如有m个x1,…,xm 这时y和x之间的线性回归方程为:y=a+b1x1+b2x2+,…,+bmxm,其回归显著性检验一般用F检验,方程中各项在回归中的重要性用该项的偏回归平方和进行判定。由于其回归系数的求解需要解用来确定回归系数的的方程组--正规方程,通常情况下仅此一项工作就导致分析过程中需要进行大量的计算,在方程项数很少的情况下还可以通过人工方式在可接受的时间内完成,否则一般都要借助计算机才能完成。
3.3.3.2 非线性回归模型 一般分为二次型回归模型、多项式回归模型等。 (1) 二次型回归模型 由于因素间常有交互作用,那么前面的回归模型就不足以反映实际,于是二次型回归模型常常为人们所采用。若有 m个因素则二次型回归模型为: 回归方程中的项数为m(m+3)/2,若使回归系数的估计成为可能,则需要试验次数n>1+m(m+3)/2,因此进入方程的变量必须经过筛选,如采用前进
3.3.3.2 非线性回归模型(续1) 法、后退法、逐步回归法或最优子集法等进行变量的筛选。其回归系数求解可经过方程项的转换按多元线性回归的方法完成。 (2) 多项式回归模型 一般地,包含多变量的任意多项式可表述为: 可通过类似x1=Z1,x2=Z2,x3=Z12,x4=Z1Z2,x5=z22的变换,将其按多元线性回归分析。多项式回归在回归分析中占特殊地位,因为任何函数至少在一
3.3.3.2 非线性回归模型(续2) 个比较小的邻域内可用多项式任意逼近,因此在比较复杂的的实际问题中,可以不问y与各因素的确切关系如何,而采用多项式进行分析(一次多项式是多项式的特例)。在多项式回归模型中,常用的子模型结构如下:
3.3.3.2 非线性回归模型(续3) (1)对数(Logarithm):包括自然对数、常用对数和以n为底对数,数学表达式分别为Ln(x)、Lg(x)、Logn(x)[以下将“数学表达式”和“函数”类的语句省略] (2)幂(Power):整数次幂、非整数次幂,xn (3)倒数(Reciprocal):1/x (4)三角函数(Trigonometric function)、反三角函数(Inverse trigonometric function)(涉及力学领域等常用,比如工件的切割、弹道轨迹等),包括有:正弦 Sin(X)、余弦 Cos(X)、正切 Tan(X)、余切 Cotan(X)、正割 Sec(X)、余割 Cosec(X)、双曲正弦 HSin(X)、双曲余弦 HCos(X)、双曲正切 HTan(X)、双曲余切 HCotan(X)、双曲正割 HSec(X)、双曲余割 HCosec(X)、反正弦 Arcsin(X)、反余弦 Arccos(X)、反正切 Atn(X)、反余切 Arccotan(X)、正割:Arcsec(X)、反余割:Arccosec(X)、反双曲正弦:HArcsin(X)、反双曲余弦:HArccos(X)、反双曲正切:HArctan(X)、反双曲余切:HArccotan(X)、反双曲正割:HArcsec(X)、反双曲余割:HArccosec(X)。 (5)幂指数:anx
3.3.3.3 回归模型建立 回归模型的建立过程在很大程度上需要结合专业知识和经验。虽然试验者正在用均匀设计研究的某个问题的未知因素很多,也可能有些问题是试验者全然不知道的(就象试验者在未建立回归模型前肯定不知道模型的具体形式一样),但试验者在试验中所采用具体试验实施操作肯定是和各种专业紧密相关的,只要试验者思考一下,哪个因素在什么时间、什么过程参加了什么反应,以及对试验的指标有何影响(有些时候可以比较明确地指出这个因素对试验指标的影响,而有些时候就不能断言),那么试验者只要寻着这样一个
3.3.3.3 回归模型建立(续1) 思路考虑,肯定可以找出在模型中应该添加或不添加某个模型组成项的依据。 下面用一个例子来说明建模的思路和过程:例子:为研究石墨炉原子吸收分光光度计法测定微量元素钯的工作条件,确定了灰化温度x1、灰化时间x2、原子化温度x3 和原子化时间x4四个因素,其试验评价指标为吸光度。由原子化机理可知,灰化温度和原子化温度对吸光度的的影响可拟合为二次函数,即在模型中应该有x12和 x32项,这两个因素发生在不同时间,因而不存在交互作
3.3.3.3 回归模型建立(续2) 用,x1x3项可不列为考察目标。灰化时间和原子化时间对试验指标的影响比较复杂,也可用二次项逼近,忽略它们的交互作用,方程中应该有x22、x42项。因为还只是根据专业知识和经验进行推断,具体每个因素对结果的影响到底如何还属未知,那么,各因素的一次项理所当然也参加进方程中,这样就可以拟定出一个 y=b0+b1x1+b2x2+b3x3+b4x4+b5x12+b6x22+b7x32+b8x42 的原始的多项式回归模型。至于这个模型的表达效果到底如何,暂时可以不用理会,只是试验者
3.3.3.3 回归模型建立(续3) 已经按照专业知识和经验拟定出一个有明确意义的回归模型了!接下来就是用多元回归分析的方法,进行模型的计算和按照一定的显著性水平对模型有效性及模型中各组成项的显著性进行检验的过程了,可以计算出原始模型的各回归系数分别为: b0= 3.836×10-1;b1= 1.001×10-5;b2=-3.324×10-3;b3=-3.529×10-4; b4= 1.421×10-2;b5=-3.584×10-8;b6= 4.034×10-5;b7= 9.852×10-8; b8=-1.076×10-3。 对模型进行回归显著性检验,其F检验值为66.620,临界值F0.05(8,3)=8.8452,高度著性,复相关系数达到0.9972。
3.3.4 回归模型优化 若对上面例子中列入回归方程中的项按某一显著性水平(本例中取α=0.05)逐个进行显著性检验,就可以发现,x1、x22、x3、x4及x42对回归无显著作用,将它们从模型中剔除,则可以确立如下的回归模型: y=b0+b1x2+b2x12+b3x22+ b4x32 回归系数分别为:b0=-5.35×10-2; b1=-3.05×10-3;b2=-3.14×10-8;b3= 3.53×10-5;b4= 3.42×10-8。 对模型进行回归显著性检验,其F检验值为184.38,临界值F0.05(4,7)=4.1203,同样高度著,
3.3.4 回归模型优化(续1) 复相关系数为0.9972。这样就成功地建立了一个去伪存真的精简的更能真实地表达因素和指标间关系的回归模型。 观察上面的回归模型,我们还可以发现,原子化时间x4这个试验因素在回归模型中没有出现,证明它是一个对试验指标影响不显著的因素,在后续的进一步的试验条件优化过程中,我们完全可以放弃对这个因素的观察,只将它保持在普通状态,使之成为一个静态的“因素”而将它从真正对试验起显著作用的行列中剔除,这样就减轻了
3.3.4 回归模型优化(续2) 试验的负担,也进一步降低了试验的误差。若在其它试验中通过回归模型优化后同样发现了不显著因素,而它又是个实际消耗资源的因素,那么模型优化的意义则更加显著了。
3.3.5 试验参数优化 建立了回归模型后,如何在试验范围内找到最好的试验因素组合?这就是所谓的参数优化(或称为试验优化)需要解决的问题了。需要补充说明的是,之所以是在试验范围内,是因为回归分析方法所建立的模型在试验范围内有效,不能说在扩大了范围的情况下它还是有效的(有时,根据具体情况做适当的外推是可以的,但也仅仅是限定在根据每个试验的具体情况,这是个经验,一般正式的学术方面的书籍或文献在论述这个问题时或不提倡外推或允许适度外推),否则外推则是在冒险。
3.3.5 试验参数优化(续1) 多元函数 f(x1,x2,x3,,,,xn)描述的是在多维空间中的一个响应面,求响应面极值的方法有很多,如间接的微分法、几何规划法、直接消去法、直接爬山法以及因素轮换法等,限于时间和篇幅,这里仅对微分法求函数极值进行简单的介绍,更详细的内容和其它方法见参考文献[5]或自行参考任何微积分或相关方面的书籍。若求得了函数的多个极值(极小值或极大值),那么将这些极值在函数的全域范围内进行比较,则可以得到我们想要的最大值或最小值,该极值点处各变量的值则是我们寻找的试验条件的最优值。
3.3.5 试验参数优化(续2) • 间接的微分法 将寻求目标函数最优值的问题间接地归结为解它的一阶导数为零的方程组,即将函数按各自变量求一阶偏导数并使其等于零,解由此组成的方程组即可找到函数的极值点,将极值点的各变量值代入函数中即可求得函数极值(极值分极大值和极小值,但不对等于最大值或最小值),下面给出一个此方法的例子:
3.3.5 试验参数优化(续3) 函数 y=1×103x1+4×109x1-1x2-1+2.5×105x2,其中0≤x1≤2200,0≤x2≤8。 令函数关于x1和x2的两个一阶偏导数都为零,这样得到两个联立方程: 解此联立方程,求得唯一的极值点,即得x1=1000,x2=4,函数极值为 y=3×106,是极大值还是极小值呢?函数的限定条件是0≤x1≤2200,0≤x2≤8,
3.3.5 试验参数优化(续4) 很明显,这几个系数都是正数,变量取值范围也都非负,而极值点的变量的值不是取各自的最大值,因此这个极值是极小值,因为函数在此区间上仅有一个极值点,所以这个极值点的值也是此函数区间上的最小值。 这是最简单且快速的适合用手工方法求解函数极值的方法。关于求函数极值和试验最优条件的求解,许多已知的软件也可以做这方面的工作,比如MatLab(Matrix Laboratory)等等。 上面介绍的是求函数极值的一种方法,当然,在实际中,任何均匀设计专门软件都可以将这个过程自动完成而不需要使用者自行通过类似的手工计算的方式求解试验最优条件。