本章要点：最速下降法的基本思想及特点牛顿方向 Newton 法基本思想及特点共轭方向、共轭方向法的基本定理共轭梯度法基本思想拟 Newton 法的基本思想

第四章无约束非线性问题的解法 • 本章要点： • 最速下降法的基本思想及特点 • 牛顿方向 • Newton法基本思想及特点 • 共轭方向、共轭方向法的基本定理 • 共轭梯度法基本思想 • 拟Newton法的基本思想

学习的重要性： 1、直接用于无约束的实际问题； 2、其基本思想和逻辑结构可以推广到约束问题； 3、约束问题可以转化成无约束问题求解。方法分类： 1、间接法：对简单问题，求解必要条件或充分条件；直接法零阶法：只需计算函数值 f(x) 2、迭代算法：一阶法：需计算 ▽f(x) 梯度法二阶法：需计算 ▽2f(x)

考虑无约束优化问题： 本章主要介绍无约束最优化方法，它的应用比较广泛，理论比较成熟。另一方面，通常可以把一些约束优化问题转化为无约束问题来处理，所以它是最优化方法中的基本方法。这些方法通常要用到函数的一阶或二阶导数。在实际问题中，也常遇到函数的解析表达式比较复杂，有的甚至写不出明显的解析表达式，因而导数很难求出或无法求出，这时基于梯度的方法不能用，需要采取另一种所谓的直接法（或直接搜索法）。直接法是仅仅利用函数值的信息，去寻找最优解的一类方法。在后面第九章有介绍。

直接搜索法收敛速度一般比较慢，需要计算大量的函数值。梯度反映了函数值变化的规律，充分利用梯度信息构造算法，能加速收敛。直接搜索法收敛速度一般比较慢，需要计算大量的函数值。梯度反映了函数值变化的规律，充分利用梯度信息构造算法，能加速收敛。使用函数的梯度（一阶导数）或Hesse矩阵（二阶导数）的优化算法统称为梯度法。算法目标：求出平稳点（满足f(x)=0的x * ）。由于 f(x)=0 一般是非线性方程组，解析法往往行不通，所以梯度法通常是逐次逼近的迭代法。假定：f(x)和 2f(x)连续存在

关键是如何确定搜索方向d(k) 可用一维搜索技术解决 x(k) d(k+1) =－f(x (k+1)) ？ x* x(k+1) d(k) =－f(x (k)) §4.1 最速下降法(Cauchy法) 1847年Cauchy提出。特点是直观易懂，但收敛速度慢。（一）基本思想多变量最优化迭代解法的一般迭代公式： x(k+1) = x(k) + tk d(k) 瞎子下山：由于他看不到哪里是山谷，不可能沿直接指向山谷的路线走，他只能在当前位置上，靠手杖作局部探索，哪里最陡就往哪里前进一步，然后在新的位置上再用手杖寻找最陡方向，再下降一步。这就是最速下降法的形象比喻。最速下降法迭代公式x(k+1) = x(k)－tk f(x(k))

下面看一下理论推导： 设函数f(x)在xk附近连续可微，且gk=  f(xk) ≠0，由Taylor展式可知，若记x-xk=tdk，则满足(dk)Tgk<0的方向dk是下降方向。当t取定后，(dk)Tgk的值越小，即- (dk)Tgk的值越大，函数下降的越快。由Cauchy-Schwartz不等式当且仅当dk=-gk时， (dk)Tgk最小，从而-gk是最速下降方向。最速下降法的迭代格式为：

给定x(0) , M , 1 , 2 , 令 k=0 计算f( x(k ) ) 是 x*=x(k) 结束 ||f( x(k ) )|| < 1 否是 k>M 否一维搜索求tk 精度为 2 x(k+1) = x(k)－tk f(x(k)) k=k+1 （二）算法开始

f(x (k+1)) d(k) f(x)等值面 d(k+1) x(k+1) x(k) （三）最速下降法的搜索路径呈直角锯齿形定理4.1 设从点x(k) 出发，沿方向d作精确一维搜索， tk为最优步长因子，即 f(x(k) + tk dk) = min f( x(k) + t dk) 则成立 f(x(k) + tk d) T d =0, 即新点处的梯度与搜索方向垂直。即 t>0 tk

x(2) x(0) x(1) 二维情形下最速下降法搜索路径：由此可以看出，最速下降法仅是算法的局部性质。对于许多问题，全局看最速下降法并非“最速下降”，而是下降的较缓慢。数值试验表明，当目标函数的等值线接近于一个圆（球）时，最速下降法下降较快，而当目标函数的等值线是一个扁长的椭球时，最速下降法开始几步下降较快，后来由于出现“锯齿”现象，下降就比较缓慢。

其原因就是精确一维搜索（最优步长）满足 f(x(k+1)) T dk =0，即 f(x(k+1)) T f(x(k)) =dk+1Tdk =0，这表明在相邻的两个迭代点上函数f(x)的两个梯度方向是互相直交的，即，两个搜索方向互相直交，这就产生了锯齿形状。当接近极小点时，步长愈小，前进愈慢。这就造成了最优步长的最速下降法逼近极小点过程是“之”字形，并且越靠近极小点步长越小，移动越慢，以至在实际运用中在可行的计算时间内得不到需要的结果。这似乎与“最速下降”的名称矛盾。其实不然，因为梯度是函数局部性质，从局部看，函数在这一点附近下降的很快，然而从整体看，则走过了许多弯路，因此反而是不好的。

为了清除最优步长最速下降法中两个搜索方向正交的不良后果，人们发现了不少方法，如：为了清除最优步长最速下降法中两个搜索方向正交的不良后果，人们发现了不少方法，如： (1) 选择不同初始点例：问题：取初点沿为求，方向从出发求的极小点即进行线搜索则解得

然后再从 开始新的迭代，经过10次迭代，得最优解计算中可以发现，开始几次迭代，步长比较大，函数值下将降较快但当接进最优点时，步长很小，目标函数值下降很慢。如果不取初点为而取虽然后一初点较前一初点离最优点远，但迭代中不会出现上面的锯齿现象。这时：一步就得到了极小点。

可见：造成距齿现象与初始点的选择有关，但怎样选一个初始点也是一件困难的事。可见：造成距齿现象与初始点的选择有关，但怎样选一个初始点也是一件困难的事。（2）采用不精确的一维搜索：用一维搜索求出的步长为时，我们不取，而用的一个近似值作为 , 这样可使相邻两个迭代点处的梯度不正交，从而改变收敛性。对于最速下降法，有时为了减少计算工作量，不采用直线搜索确定步长，而采用固定步长λ的方法，称为固定步长最速下降法。只要λ充分小，总有：但λ到底取多大，没有统一的标准， λ取小了，收敛太慢，而λ取大了，又会漏掉极小点。——不精确线搜索解决这个问题

（四）收敛性分析 定理4.2设目标函数 f (x)一阶可微，且水平集有界，则最速下降法或者在有限步迭代后终止；或者得到点列，它的任何极限点都是f (x)的驻点。证明：见文中定理4.1的证明推论4.1如果函数f (x)为凸函数，则应用最速下降法，或者在有限步迭代后终止；或者得到点列的任何极限点都是全局极小点。证明：见课本P69推论4.2 下面讨论最速下降法用于二次函数时的收敛性分析。

定理4.3：对于二次函数 Q为对称正交，分别为其最小最大特征值，从任意初点出发，对此二次函数，用最速下降法产生的序列，对于有而函数的极小点恰好是。故最速下降法对于二次函数关于任意初点均收敛，而且是线性收敛的。用于二次函数时的收敛性分析并且由于，则

下面说明最速下降法收敛 性的几何意义。考虑具有对称正定矩阵的函数其中这个函数的等值线为 (c＞0)，改写为：

这是以和 为半轴的橢圆，从下面的分析可见两个特征值的相对大小决定最速下降法的收敛性。（1）当时，等值线变为圆此时因而由上述定理知：即只需迭代一步就到了极小点，这表明最速下降法用于等值线为圆的目标函数时，从任意初始点出发，只需迭代一步就到了极小点。（2）当时, 等值线为椭圆。此时对于一般的初始点将产生锯齿现象。

（3）当， 等值线是很扁的椭圆，此时对于一般的初始点收敛速度可能十分缓慢，锯齿现象严重。

（五）优缺点 1、优点：计算简单，需记忆的容量小；对初始点要求低，稳定性高；远离极小点时收敛快，常作为其它方法的第一步。 2、缺点：收敛速度较慢（线性或不高于线性）。原因是最速下降方向只有在该点附近有意义。最速下降方向只是局部下降最快的方向，在全局来看，下降速度是比较慢的。尤其当目标函数等值面是很扁的椭圆、椭球或类似图形时，收敛更慢。

例4.1 用最速下降法求函数 f (x1, x2)＝x12+4x22 的极小点，（迭代两次），并验证相邻两个搜索方向是正交的。初始点取为x(0)=[1,1]T 。解：梯度 f (x)＝[2x1, 8x2]T 。 1.第一次迭代： f ( x(0) )＝[2, 8]T ， x(1) = x(0) + t0p(0) =x(0) － t0 f (x(0))＝ [1,1]T － t0[2, 8]T 用一维搜索求t0，对简单f(x)，可用解析法求解：设0(t)＝f ( x(1) )＝f ( [1,1]T － t[2, 8]T )＝(1－2t)2+4(1－8t)2 ’0(t)＝520t－68＝0 t0＝0.130769 x(1) =[0.738462, －0.046152]T

0.738462－1.476924t1 －0.046152+0.369216t1 x(2) = x(1) － t1f (x(1)) = 2.第二次迭代：f ( x(1) )＝[1.476924, －0.369216]T 1(t)＝f ( x(2) )＝(0.738462－1.476924t)2+4(－0.046152+0.369216t)2 ’1(t)＝－2.317625t+5.453173t＝0 t1＝0.45005 x(2) =[0.110762, 0.110767]T f ( x(2) )＝[0.221524, 0.886136]T 3. 验证相邻两个搜索方向是正交的： f (x(0))T f (x(1)) =[2, 8] [1.476924, －0.369216]T =0.00012  0 f (x(1))T f (x(2)) = [1.476924, －0.369216] [0.221524, 0.886136]T =0.000001  0

建议大家对二次函数编程实践(无需集成一维搜索算法)建议大家对二次函数编程实践(无需集成一维搜索算法) 建议大家对一般函数结合一维搜索方法编程实践.

§4.2 Newton法（二阶方法） ？由最速下降法可知，从全局角度来看，负梯度方向一般不是一个特别好的方向，有没有更好的方向? （一）基本Newton法设函数f(x)是二次可微函数，又设函数x(k)是f(x)的极小点的一个估计，我们把设函数f(x)在x(k)展成Taylor级数，并取二阶近似：取 f(∆x; x(k))的平稳点作为f(x) 最优点的一个近似点 f(x)在x(k)处的二次近似函数令f (∆x; x(k)) = f (x(k))+ 2f (x(k))x = 0 设函数f(x)的Hesse矩阵可逆，由上式可得：

f(x(k)) x(k+1) f(x; x(k)) －H(x(k))－1g(x(k)) x(k) x－ x(k) = x = －2f (x(k))－1f (x(k)) Newton法迭代公式： x(k+1) =x(k)－2f (x(k))－1f (x(k)) 或 x(k+1) =x(k)－H(x(k))－1g(x(k)) 这样，知道x(k)后，算出在这一点处目标函数的梯度和Hesse矩阵的逆，代入便得到后继点x(k+1)。 ! 当f(x)是单变量函数时，本方法即为一维搜索的Newton法！ ! 当f(x)是二次函数时，一次迭代就可达到平稳点！

Newton法的二次终止性 设有二次凸函数 f(x)=1/2xTAx+bTx+c 其中A对称正定矩阵。我们先用极值条件求解。令得最优解：下面用Newton法求解。任取初始点x(1)，根据Newton法迭代公式有：显然，即一步迭代达到最优解。以后还会遇到一些算法，把它们用于二次凸函数时，类似于牛顿法，经过有限次迭代比达到极小点。这种性质称为二次终止性。

给定x(0) , , 令 k=0 计算g(k) =f( x(k ) ) 是 x*=x(k) 结束 ||g(k )|| <  否计算H(x(k)) p(k) =－H(x(k))－1g(k) x(k+1) = x(k) +p(k) k=k+1 基本Newton法的算法框图：开始

16 4 4 10 2f (x)＝H(x)= 10 － 4 －4 16 1 144 H(x)－1 = 10 10 200 140 0 0 10 － 4 －4 16 1 144 = －＝例4.2 用基本Newton法求函数 f (x1, x2)＝8x12+4x1x2+5x22 的极小点。初始点取为x(0)=[10, 10]T 。解： f (x)＝[16x1+4x2, 4x1+10x2]T x(1) =x(0)－H(x(0))－1f (x(0)) 因为f(x)是二次函数，所以一步迭代就达到平稳点，又因为H(x(1))是正定矩阵，所以x(1)是极小点。

例4.3：用Newton法求 的极小点。解：取初点则：代入Newton迭代公式得：此即为问题的最优点

关于Newton法的几点说明： 1、基本Newton法要求Hesse矩阵具有逆矩阵。如果H(x(k))是正定的，则H(x(k))－1必存在，从而算法是可行的，并且保证求得的平稳点是极小点。然而在迭代过程中要求H(x(k))是正定的这一条件不一定能保证，只有当初始点合适时才能满足。一般在极小点附近的Hesse矩阵容易为正定的。所以基本Newton法在极小点附近才比较有效。 2、 Newton法的搜索方向－H (x)－1f (x)不一定是下降方向。因为若是下降方向，则应有f (x)T[－H (x)－1f (x)]<0，即 f (x)TH (x)－1f (x)>0，但由于H (x)－1不一定是正定的，所以上式不一定成立。

3、Newton法的最大优点是：当初始点选得合适时收敛很快，具有二阶收敛速度，是目前讲过的算法中最快的一种，且不需一维搜索。3、Newton法的最大优点是：当初始点选得合适时收敛很快，具有二阶收敛速度，是目前讲过的算法中最快的一种，且不需一维搜索。对初始点要求高，一般要求初始点离极小点较近，否则不收敛。有时即使是收敛的，但因初始点离极大点或鞍点较近，会收敛于极大点或鞍点。 4、方向－H (x)－1f (x)称为Newton方向，是一个好方向，对二次函数此方向直指平稳点。对于目标函数是二次函数的无约束优化问题，从任意初始点出发，利用Newton法一步迭代即可得到最优解，也就是Newton法具有二次终止性。

下的最速下降算法。 5、牛顿算法可视为椭球范数下的方向导数定义为：事实上，欧氏空间中一般范数（它显然与范数有关）显然，的最优解就是函数处对应于范数在的最速下降方向。容易理解，这个解与所取的范数有关。 a) 当取欧氏范数（2范数）时，可证是最速下降方向；

，最速下降方向则为 b) 若取椭球范数事实上，即，有（意味着为方向导数下界）

时另一方面，若取是对于椭球范数方向导数达到下界，故下的最速下降方向。

6、牛顿算法实际上是非线性方程组的牛顿迭代法。6、牛顿算法实际上是非线性方程组的牛顿迭代法。由于求解等价于求解非线性方程组是当前迭代点，若，则是方程组的解，否则将设若在处线性化，得将上述线性方程组的解作为的近似解，得故有这恰好就是牛顿迭代公式。

? 怎样才能使Newton法成为一个下降算法？ 由以上分析可知，固定的步长因子不能保证目标函数有合理的改善，甚至不能保证算法下降，因此有必要对牛顿算法作一些改进，一个最直接的改进是：在牛顿算法中加入一维搜索。（二）修正(阻尼)Newton法修正Newton迭代公式： x(k+1) =x(k)－ tkH(x(k))－1f (x(k)) 沿Newton方向一维搜索得到的最优步长保证了 f(x(k+1)) ≤f(x(k)) ，且不必要求H(x)为正定矩阵。 ? 出现 (1) H(x(k)) －1不存在；或(2) tk =0 时怎么办？改用最速下降法，即 p(k) =－ f (x(k)) 修正Newton法与基本Newton法的优点是：收敛快，程序简单。前者更实用可靠。缺点：要求计算Hesse矩阵及其逆矩阵，计算量大，尤其当维数n较大时。

给定x(0) , , 令 k=0 计算g(k) =f( x(k ) ) 是 x*=x(k) 结束 ||g(k )|| <  否计算H(x(k))，若可逆p(k) =－H(x(k))－1g(k);否则p(k) =－g(k); 一维搜索求tk x(k+1) = x(k) + tk p(k) k=k+1 阻尼Newton法的算法框图：常用如下Armijo不精确搜索开始

阻尼Newton法的收敛性 定理4.4设 f (x)存在连续二阶偏导数，函数的Hessian矩阵正定, 且水平集有界，则阻尼牛顿法或者有如下性质在有限步迭代后终止；或者得到的无穷点列为严格单调下降序列； 1）有唯一极限点，它是 f (x)的最小点。 2）证明：见文P70中定理4.3的证明.

最速下降法 1 0 p(0)＝－[2f (x(0))+0I]－1f (x(0)) － f (x(0)) Newton法 Newton法与最速下降法结合(1)——Marquart法最速下降法的优点：对初始点要求不高，稳定性好；远离最优点时收敛较快。缺点是离最优点较近时收敛很慢。 1963年Marquardt提出将最速下降法与Newton法结合，开始用最速下降法，在接近最优点时用Newton法。（一）方法思想牛顿法的优缺点刚好与最速下降法相反。在迭代公式x(k+1) = x(k) +tk p(k)中，取步长tk＝1 ，搜索方向为 p(k)＝－[2f (x(k))+kI]－1f (x(k)) 其中 k同时起控制搜索方向和步长的作用，I为单位矩阵 (1)开始阶段取很大，如0=104， (2)在迭代过程中，让k0， p(k) －2f (x(k))－1f (x(k)) 具体在每一步是否缩小 k，要通过检验目标函数值来决定：若f(x(k+1)) < f(x(k))，取k+1 < k ; 否则，取k+1=k, >1，重作第k步迭代。

给定x(0) , M，, 令 k=0， 0=104 计算 f( x(k ) ) 是 || f( x(k ) ) || <  x*=x(k) 结束否是否 p(k) =－ [2f (x(k))+kI]－1f (x(k)) k>M 若[2f (x(k))+kI]－1 不存在 x(k+1) = x(k) +p(k) 否 k= 2k f(x(k+1)) < f(x(k)) 是 k+1= 0.5k , k=k+1 （二）算法开始 I 可推广为半正定矩阵 x(k+1) = x(k) + tkp(k)

Newton法与最速下降法结合(2)——Goldstein-Price方法(G-P法)Newton法与最速下降法结合(2)——Goldstein-Price方法(G-P法) 取 d(k)= -[▽2f(x(k)) ]-1▽f(x(k)) ， ▽2f(x(k)) 正定 - ▽f(x(k)) ，否则采用下列不精确一维搜索：求λk , 满足Goldstein准则 1° f(x(k)+λkd(k)) ≤ f(x(k))+ δλk▽f(x(k))Td(k) 2° f(x(k)+λkd(k)) ≥f(x(k))+ (1-δ) λk ▽f(x(k))Td(k) 其中δ ∈(0,1／2) 特点：在一定条件下， G-P法全局收敛。但当▽2f(x(k)) 非正定情况较多时，收敛速度降为接近线性。

§4.3 共轭方向法 最速下降法，计算步骤简单，开始几步收敛较快，但往后收敛速度越来越慢；在最优解的附近，牛顿法以及修正牛顿法收敛速度快，但需要计算Hesse矩阵及其逆矩阵，计算量和存储量都很大。因此人们希望能找到一种好的算法，它的收敛速度介于最速下降法与牛顿法之间，这种算法能够具有牛顿法收敛速度快的优点，又有最速下降法计算简单的优点，并且不需要计算Hesse矩阵的逆矩阵，对于二次函数只需有限次迭代就能达到最优解。这就是我们要讨论的共轭方向法。共轭梯度法就是其中一种，它是利用梯度生成共轭方向的共轭方向法。

（一）共轭方向 下面我们先从几何上直观地介绍共轭方向，然后再给出严格的定义。如图所示，AB，CD过椭圆的中心，CD平行于椭圆上在点A，B的切线，在几何上称AB与CD为共轭直径。AB与CD的方向称为共轭方向。 p1 D A p1 C B Martin和Tee提出可以利用上述椭圆的（或n维椭球）的这种共轭性质来获得较快的收敛速度。n=2时，若在椭圆上两点A，B的切线平行，则直线AB必过椭圆的中心。在点A，B的切线方向与AB的方向称为共轭方向。这种共轭关系如何表示呢？有如下定理：

引理4.4 设f(x)=1/2xTAx+bTx+c，AT=A>0，给定方向p1，在与p1平行的两条直线上（如图），f(x)的最小点为x1，x2，则 p1TAp2=0, （p2=x2-x1） p1 x2 x1 p2 证：因为 g1=Ax1+b，g2=Ax2+b，则 g2-g1=A(x2-x1)，又因为x1，x2为f(x)在此二直线上的最小点，则 p1Tg1=0，p2Tg2=0，所以 p1T(g2-g1)=0，综上可得 p1T(g2-g1)= p1TA(x2-x1)=0 ，所以 p1TAp2=0, （p2=x2-x1）。注：该示意图说明沿任意p1得到极小点后，沿其共轭方向p2必找到二维问题的极小点！

下面给出共轭的一般定义： 定义：设A是n×n阶对称正定矩阵，（1）p(0), p(1)为两个n维向量，若成立 p(0)T A p(1) = 0 则称向量p(0)与p(1)为A共轭或A正交，称这两向量的方向为A共轭方向。（2）若有一组向量p(0), p(1),…, p(m)，满足 p(i)T A p(j) = 0，（i≠j，i, j=1,2,…m）则称向量组p(0), p(1),…, p(m)为A共轭（或A正交）的向量组。 • 若 A＝I（单位矩阵），则 p(0)T p(1) = 0，即 p(0)与p(1)是正交的。 =||p(0)||.||p(1)||cosθ “共轭”是“正交”概念的推广

例1：设 验证 p(0)，p(1)为 A 共轭向量。解：因为则 p(0) 与 p(1) 是 A 共轭的。

（二）共轭方向的性质——共轭方向法的基本定理（二）共轭方向的性质——共轭方向法的基本定理定理4.5：设A为n×n阶对称正定矩阵，p(1), p(2)，…, p(m)为m个相互A共轭的n维非零向量（即p(i)0, i=1,2,…, m, 且p( i )T A p( j ) = 0，i j），则此向量组必线性无关。推论：在n维空间中，互相共轭的非零向量的个数不超过n个。引理4.6（n维直交定理）(1)若p(0), p(1), …, p(n-1)是线性无关的n维向量组； (2)若n维向量x和p(0), p(1), …, p(n-1)都直交；则 x=0。

命题：设A为n×n阶对称正定矩阵，p(0), p(1)，…, p(n-1)为n个相互A共轭的n维非零向量（即p(i)0, i=0,1,…, n-1, 且p( i )T A p( j ) = 0，i j），则任意n维向量 x 可表示：定理4.6：若p(0), p(1), …, p(n-1)是n个非零的A共轭向量，则二次目标函数 f(x) = c + bTx + 1/2 xTAx的最优点 x*为 ? 上式用于非二次函数，可否得到最优点？ !可得到非二次函数最优点的一个近似点；其中A是Hesse矩阵！

定理4.7: 设A为n阶对称正定矩阵，对于二次目标函数 f(x) = c + bTx + 1/2 xTAx，从任意初始点x(1)出发，逐次进行一维搜索，即 min f ( x( i )+ t p( i ) ) = f ( x( i )+ti p( i ) ) i≥0 若搜索方向p(1), p(2), …, p(n)是非零的A共轭向量，则至多进行n次迭代必可得到极小点x* ，即有 x( i+1) =x( i ) +ti p( i ) , i =1,2,…,n x* = x( k ) , 1≤k≤n+1 上述搜索方法具有二次收敛性 ? 对非二次函数，采用上述方法，n次迭代是否也可得到极小点？ ? 如何简便地找出n个A共轭的向量？

p(1) p(0) p(1) x(1)* x* x(1) p(0) x(1) x(1)* x* p(0) x(0) x(0)* p(0) p(1) x(0)* p(2) x(0) （三）Powell共轭方向法定理: 假设 1. n元函数f(x) = c + bTx + 1/2 xTAx 中的矩阵A是对称正定的； 2. 向量p(0), p(1), …, p(m-1) (m<n)是互相A共轭的； 3. x(0), x(1)是不同的任意两点，分别从x(0), x(1)出发，依次沿p(0), p(1), …, p(m-1) 作精确一维搜索，设最后一次一维搜索的极小点分别为x(0)*和x(1)*, 那么，向量 p = x(0)*－x(1)*与p(0), p(1), …, p(m-1)互为A共轭。已知前m个共轭方向，就可以找到第m+1个共轭方向

任意n个线性无关的方向 表4.1 Powell共轭方向法的迭代过程阶段起点x(k, 0) 新共轭方向 n+1次一维搜索过程 Powell共轭方向法的基本思想 ………………………………………………………………………………………………………… 一边搜索，一边找共轭方向共分n个阶段，每一阶段都进行n+1次搜索，最后产生一个共轭方向

本章要点：最速下降法的基本思想及特点牛顿方向 Newton 法基本思想及特点共轭方向、共轭方向法的基本定理共轭梯度法基本思想拟 Newton 法的基本思想