2.4 约束极值点存在条件
2.4.1 等式约束优化问题极值点存在条件
求解等式约束优化问题:
minf(X)
s.t.hk(X)=0(k=1,2,…,m)
需要导出极值存在的条件,这是求解等式约束优化问题的理论基础。对这一问题在数学上有两种处理方法:消元法(降维法)和拉格朗日乘子法(升维法),现分别予以介绍。
1.消元法
为了便于理解,先讨论二元函数只有一个等式约束的简单情况,即
minf(x1,x2)
s.t.h(x1,x2)=0
根据等式约束条件将一个变量x1表示成另一个变量x2的函数关系x1=φ(x2),然后将这一函数关系代入到目标函数f(x1,x2)中消去x1,变成一元函数F(x2),从而将等式约束优化问题转化成无约束优化问题。目标函数通过消元由二元函数变成一元函数,即由二维变成一维。所以消元法又称作降维法。
对n维情况
minf(x1,x2,…,xn)
s.t.hk(x1,x2,…,xn)=0(k=1,2,…,l)
由l个约束方程将n个变量中的前l个变量用其余n-l个变量表示,即有
x1=φ1(x1+1,x1+2,…,xn)
x2=φ2(xl+1,x1+2,…,xn)
…
xl=φl(xl+1,xl+2,…,xn)
将这些函数关系代入到目标函数中,从而得到只含xl+1,xl+2,…,xn共n-l个变量的函数,这样就可以利用无约束优化问题的极值条件求解。
消元法虽然看起来简单,但是实际求解困难却很大。因为将l个约束方程联立往往求不出解来。即使能求出解,当把它们代入目标函数之后,也会因为函数十分复杂而难以处理。所以,以这种方法作为一种分析方法实用意义不大,而对某些数值迭代方法来说,却有很大的启发意义。
2.拉格朗日乘子法
拉格朗日乘子法是求解等式约束优化问题的另一种经典方法,它是通过增加变量将约束优化问题变成无约束优化问题,所以又称作升维法。
对于具有l个等式约束的n维优化问题
minf(X)
s.t.hk(X)=0(k=1,2,…,l)
在极值点X*处有
把l个等式约束给出的l个0,分别乘以待定系数λk(k=1,2,…,l)再和相加,得
可以通过其中的l个方程
来求解l个λ1,λ2,…,λl,使得l个变量的微分dx1,dx2,…,dxl的系数全为0,这样,式(2-20)的等号左边就只剩下n-l个变量的微分dxl+1,dxl+2,…,dxn的项,即它变成
但dxl+1,dxl+2,…,dxn应是任意量,则应有
式(2-22)和式(2-23)及等式约束hk(X)=0(k=1,2,…,l)就是点X达到约束极值的必要条件。
式(2-21)和式(2-23)可以合并写成
根据目标函数f(X)的无约束极值条件(i=1,2,…,n),则上述问题的约束极值条件可以转换成无约束的函数极值条件。办法是,把原来的目标函数f(X)改造成为如下形式的新目标函数:
式中的hk(X)就是原目标函数f(X)的等式约束条件,而待定系数λk称为拉格朗日乘子,F(X,λ)称为拉格朗日函数。这种方法称为拉格朗日乘子法。
式(2-25)中显然多出了l个待定系数λk(可看成是新的变量),而X=(x1,x2,…,xn)T有n个变量。结果共有n+l个变量。但是可提供n个方程,再加上l个等式约束条件hk(X)=0,共有n+l个方程,足以解出这n+l个变量。
由于给出hk(X)=0,所以这n+l个方程可以看成是通过下述条件给出的:
这样,拉格朗日乘子法可以叙述如下:
设X*是目标函数f(X)在等式约束hk(X)=0条件下的一个局部极值点,而巨在该点处函数的梯度▽hk(X*)=0(k=1,2,…,l)是线性无关的,则存在一个向量λ(在l个约束函数规定的集内),使得下式成立:
式中,λT=(λ1,λ2,…,λl),▽hk(X*)T=(▽h1(X*),▽h2(X*),…,▽hl(X*))
为了说明拉格朗日乘子的物理意义,我们看函数f(X)=f(x1,x2)的一个二维问题,巨只有一个约束条件h(X)=h(x1,x2)=0时的简单情况。此时,式(2-25)的形式是
F(X,λ)=f(X)+λh(X)
由式(2-24)得
所以上式可以写成
式中的是单位变量的目标值变化率,而则是单位变量的约束值变化率,可以称为优化效率或敏度系数。而巨从可知,各变量的改变所导致的优化效率是相等的,巨等于一个常数λ。
对于机械优化设计问题,若目标函数f(X)是结构重量,约束条件是结构刚度或某点的变形,则可以理解为结构重量的收益,而可以理解为结构刚度的支出。则就意味着单位结构的刚度支出所能获得的结构重量收益。这时的λ就反映结构刚度对其重量的优化率。
例2-2 用拉格朗日乘子法计算在约束条件h(X)=h(x1,x2)=2x1+3x2-6=0的情况下,f(X)=f(x1,x2)=4x21+5x22的极值点。
解:改造的目标函数是F(X,λ)=4x21+5x22+λ(2x1+3x2-6),则
由
解得极值点坐标是
把它们代入(即约束条件2x1+3x2-6=0),求得
所以得
即极值点X*=(1.071,1.286)T
2.4.2 不等式约束优化问题极值点存在条件
在约束条件下求得的函数极值点,称为约束极值点。在优化实用计算中常需判断和检查某个可行点是否为约束极值点,这通常借助于库恩-塔克(Kuhn-Tucker)条件(简称K-T条件)来迸行。
K-T条件可阐述为:如果X(k)是一个局部极小点,则该点的目标函数梯度▽f(X(k))可表示成该点诸约束面梯度▽gu(X(k))、▽hv(X(k))如下线性组合:
式中,q为在X(k)点的不等式约束面数;j为在X(k)点的等式约束面数;λu(u=1,2,…,q)、μv(v=1,2,…,j)均为非负值的乘子,亦称拉格朗日乘子。如果无等式约束,而全部是不等式约束,则式(2-27)中j=0,第三项全部为零。
也可以对K-T条件用图形来说明。式(2-27)表明,如果X(k)是一个局部极小点,则该点的目标函数梯度▽f(X(k))应落在该点诸约束面梯度▽gu(X(k))、▽hv(X(k))在设计空间所组成的锥角范围内。如图2-11所示,图2-11a中设计点X(k)不是约束极值点,图2-11b中的设计点X(k)是约束极值点。
图2-11 K-T条件的几何意义
以二维情况为例,将更形象地表明K-T条件。
图2-12所示为在设计点X(k)处有两个约束,图2-12a表示X(k)点处目标函数梯度▽f(X(k))在该点两个约束函数梯度▽g1(X(k))、▽g2(X(k))组成的锥角Γ以外,这样在X(k)点邻近的可行域内存在目标函数值比f(X(k))更小的设计点,故X(k)点不能成为约束极值点;而图2-12b表示X(k)点处▽f(X(k))落在锥角Γ以内,则在该点附近邻域内任何目标函数值比f(X(k))更小的设计点都在可行域以外,因而X(k)是约束极值点,它满足式(2-27)所示K-T条件
▽f(X(k))-λ1▽g1(X(k))-λ2▽g2(X(k))=0(λ1≥0,λ2≥0)
图2-12 二维函数K-T条件图解
图2-13所示为在设计点X(k)处只有一个约束,图2-13a表示▽f(X(k))和▽g(X(k))的方向不重合,在X(k)邻近的可行域内存在目标函数值比f(X(k))更小的设计点,故X(k)不能成为约束极值点;而图2-13b中由于▽f(X(k))和▽g(X(k))的方向重合,则-▽f(X(k))-λ▽g(X(k))=0,λ>0,此即当X(k)点处约束面数q=1时的K-T条件,显然X(k)点附近邻域内任何目标函数值比f(X(k))更小的设计点都在可行域以外,X(k)点是约束极值点。
图2-13 约束极值点存在的条件
必须指出,K-T条件用于检验设计点是否为约束极值点,对于“凸规划”问题,即对于目标函数f(X)为凸函数、可行域为凸集的优化问题,局部极值点与全域最优点相重合,如图2-12b、图2-13b皆为凸规划问题,X(k)点符合K-T条件,必为全域最优点,但对于非凸规划问题则不然。图2-14a所示是目标函数为非凸函数、约束可行域为凸集,图2-14b所示是目标函数为凸函数、约束可行域为非凸集,这两种情况在可行域中均可能出现两个或更多的局部极小点,它们必须都满足K-T条件;但其中只有一个函数值最小的点X(k)是约束最优点。在工程优化设计问题中函数在全域上的凸性不一定存在,在许多情况下,凸性的判断亦难迸行。因此判断符合K-T条件的约束极值点是全域最优点还是局部极值点目前仍是优化研究的一个重大课题。但凸集、凸函数、K-T条件等在优化理论和实践中仍具有重要意义。亦须指出,用K-T条件检验约束极值点是指具有起作用约束的可行点。如图2-15所示,无约束极值点X*处gu(X*)均大于零(u=1,2,3,4),这一约束条件对X*都不起作用,X*亦是约束极值点,但却不属于K-T条件的范围。
例2-3 用K-T条件检验点X(k)=(2,0)T是否为目标函数f(X)=(x1-3)2+x22+5在不等式约束:g1(X)=4-x21-x2≥0、g2(X)=x2≥0、g3(X)=x1-0.5≥0条件下的约束最优点。
解:(1)计算X(k)点的诸约束函数值
g1(X(k))=4-22-0=0
g2(X(k))=0
g3(X(k))=2-0.5=1.5>0
图2-14 非凸集定义域凸函数极值存在情况
图2-15 不属于K-T条件的约束极值点
X(k)点是可行点,该点起作用的约束函数是g1(X)、g2(X)。
(2)求X(k)点的有关诸梯度
(3)代入式(2-27),求拉格朗日乘子
写成线性方程组
解得λ1=λ2=0.5,乘子均为非负,故满足K-T条件,即X(k)=(2,0)T点为约束极值点。参看图2-16,亦得到证实。而巨,由于f(X)是凸函数,可行域为凸集,所以点X(k)=(2,0)T也是约束最优点。
图2-16 例2-3图解