外观
Chapter 17 多元函数极值
约 4719 字大约 16 分钟
2025-12-17
Part 1 无条件极值
定义1 (极值).
设 f:A→R 为多元函数,其中 A 为 Rn 中的子集,x0=(x10,⋯,xn0)∈A. 如果存在 δ>0,使得
f(x0)≥f(x)(或 f(x0)≤f(x)),∀ x∈A∩Bδ(x0)−{x0},
则称 x0 为 f 的极大(小)值点,f(x0) 为 f 的极大(小)值. 当上式中 “≥”(“≤”)换成 “>”(“<”)时,相应地把 x0 称为严格极值点,f(x0) 为严格极值.
命题1 (达到极值的必要条件).
设 x0 为 f 的极值点,如果 x0 为 A 的内点,且 f 在 x0 处存在一阶偏导数,则
fx1′(x0)=fx2′(x0)=⋯=fxn′(x0)=0.
/proof/
以 fx1′ 为例,考虑一元函数 φ(x)=f(x,x20,⋯,xn0),则 φ 可导,且以 x10 为极值点.
由 Fermat 定理知 φ′(x10)=0,即 fx1′(x0)=0.
定理2.
设 U 为 Rn 中开集,f:U→R 具有二阶连续偏导数,x0 为 f 的驻点. 则
(1) 如果 x0 为 f 的极小(大)值点,则 Hess(f)(x0) 为半正(负)定方阵;
(2) 如果 Hess(f)(x0) 为正(负)定方阵,则 x0 为 f 的严格极小(大)值点;
(3) 如果 Hess(f)(x0) 为不定方阵,则 x0 不是 f 的极值点.
/proof/
证明的思想是在 x0 附近利用 f 的 Taylor 展开:
f(x0+h)−f(x0)=Jf(x0)⋅h+21hT⋅Hess(f)(x0)⋅h+o(∥h∥2)=21hT⋅Hess(f)(x0)⋅h+o(∥h∥2).
(1) 设 x0 为 f 的极小值点,v 为任意固定的单位向量,在上式中取 h=t⋅v,t∈R,则当 ∣t∣ 充分小时,
0≤f(x0+h)−f(x0)=t2[21⋅vT⋅Hess(f)(x0)⋅v+o(1)],
上式两边除以 t2,然后令 t→0 得
0≤vT⋅Hess(f)(x0)⋅v,∀ v∈Rn, ∥v∥=1.
这说明 Hess(f)(x0) 为半正定方阵. x0 为极大值点时证明完全类似.
(2) 如果 Hess(f)(x0) 正定,则
λ0=∥v∥=1minvT⋅Hess(f)(x0)⋅v>0.
从而当 ∥h∥ 充分小时
f(x0+h)−f(x0)≥21∥h∥2⋅λ0+o(∥h∥2)=∥h∥2(21λ0+o(1))≥41λ0⋅∥h∥2,
即 x0 为严格极小值点. Hess(f)(x0) 负定的情形类似.
(3) 证明与 (1), (2) 类似
/example/ 求 f(x,y)=x4+y4−(x+y)2 的极值.
先求驻点:
0=∂x∂f=4x3−2x−2y,0=∂y∂f=4y3−2x−2y.
上式有三个解
m0=(0,0),m1=(1,1),m2=(−1,−1).
为了判极大、极小值,再在驻点处求 Hessian:
Hess(f)(x,y)=∂x2∂2f∂y∂x∂2f∂x∂y∂2f∂y2∂2f=(12x2−2−2−212y2−2).
在 m1,m2 处,Hessian 正定,从而 m1,m2 为极小值点,此时
f(m1)=f(m2)=−2.
在 m0 处 Hess(f) 退化,用 Hess(f) 无法判别 m0 是否为极值点. 但对于 0<x<1,令 y=x,则
f(x,y)=2x4−4x2<0;
令 y=−x,则 f(x,y)=2x4>0,这说明 m0 不是极值点.
最小二乘法:
设 (x1,y1),⋯,(xn,yn) 为平面 R2 上 n 个点,求一条直线 y=ax+b,使得
F(a,b)=i=1∑n(axi+b−yi)2
最小.
/proof/
函数 F(a,b) 是关于 (a,b) 的光滑函数. 先求驻点:
0=∂a∂F(a,b)=2i=1∑n(axi+b−yi)xi,0=∂b∂F(a,b)=2i=1∑n(axi+b−yi),
当
n⋅i=1∑nxi2−(i=1∑nxi)2=21i+j∑(xi−xj)2=0
时,上述二元一次方程组有唯一的解(驻点),在此驻点处,F 的 Hessian 为
2i=1∑nxi2i=1∑nxii=1∑nxin,
它是正定方阵,故该驻点为极小值点. 由于当 (a,b)→∞ 时 F(a,b)→+∞,故该驻点为唯一的最小值点(见下面的引理).
为了写出直线方程,我们注意到,当 (x,y) 在此直线上时,
xi=1∑nxii=1∑nxi2yi=1∑nyii=1∑nxiyi1ni=1∑nxi⋅(a,−1,b)T=0,
这说明
xi=1∑nxii=1∑nxi2yi=1∑nyii=1∑nxiyi1ni=1∑nxi=0,
这也就是所求直线方程.
引理3.
设 f:Rn→R 为连续函数,则
(1) 如果 ∥x∥→∞limf(x)=−∞,则 f 在 Rn 上达到最大值;
(2) 如果 ∥x∥→∞limf(x)=+∞,则 f 在 Rn 上达到最小值.
/proof/
以 (1) 为例,取 x0∈Rn,由已知条件,存在 R>0 使得 ∥x∥≥R 时,
f(x)<f(x0).
则 f 在 BˉR(0) 上的最大值即为 f 为 Rn 上的最大值.
Part 2 条件极值
设 U 为 Rn 中开集,f:U→R 为 U 上多元函数,Φ:U→Rm(m<n) 为 C1 映射,令
A={x∈U∣Φ(x)=0},
f 在 A 上的极值称为条件极值,方程 Φ(x)=0 称为约束条件.
· Lagrange 乘数法
如果 A 为 Rn 中的 C1 曲面,x0∈A 为 f 的条件极值点,则对于 A 上经过 x0 的任何可微曲线 σ(t) (σ(0)=x0),t=0 为 f(σ(t)) 的驻点,因此
0=dtdt=0f(σ(t))=Jf(x0)⋅σ′(0),
即 f 在 x0 处的梯度 Jf(x0) 与 A 在 x0 处的切向量 σ′(0) 正交. 这说明此时 Jf(x0) 是 A 在 x0 处的一个法向量.
利用隐(函数)映射定理,我们可以更准确地将上述想法总结为下面的结果.
定理1 (Lagrange 乘数法).
设 f∈C1(U),x0∈A 为 f 的条件极值点. 如果 JΦ(x0) 的秩为 m,则存在 λ∈Rm,使得
Jf(x0)−λ⋅JΦ(x0)=0.(*)
/proof/
不妨设 Φ=(φ1,⋯,φm),且
det∂x1∂φ1⋮∂x1∂φm⋯⋱⋯∂xm∂φ1⋮∂xm∂φm(x0)=0.
由隐映射定理,存在点 z0=(xm+10,⋯,xn0) 的开邻域 V 以及 C1 映射 g:V→Rm 使得
y0=g(z0),Φ(g(z),z)=0,∀ z∈V,
其中 y0=(x10,⋯,xn0),y=(x1,⋯,xm),z=(xm+1,⋯,xn),x=(y,z)∈U. 在 x0=(y0,z0) 处求导,有
Jg(z0)=−(JyΦ)−1(x0)⋅JzΦ(x0).(1)
由于 x0 为 f 的条件极值点,故 z0 为 f(g(z),z) 的极值点(驻点),在 z0 处求导,得
Jyf(x0)⋅Jg(z0)+Jzf(x0)=0.(2)
将 (1) 式代入 (2),得
Jzf(x0)=Jyf(x0)⋅(JyΦ)−1(x0)⋅JzΦ(x0).(3)
记 λ=Jyf(x0)⋅(JyΦ)−1(x0),即
Jyf(x0)=λ⋅JyΦ(x0).(4)
(3) 式可用 λ 改写为
Jzf(x0)=λ⋅JzΦ(x0).
(4) 和 (5) 式结合起来就得到
Jf(x0)−λ⋅JΦ(x0)=0.
这就证明了定理.
重要
(1) 在定理的条件下,A 在 x0 附近是 n−m 维隐式曲面,它在 x0 处的法空间由 Jφ1(x0),⋯,Jφm(x0) 张成,(*) 式就是说 Jf(x0) 是法向量.
(2) 在实际应用中,(*) 式通常解释为:如果 x0 为条件极值点,则 (x0,λ) 为辅助函数
F(x,λ)=f(x)−i=1∑mλi⋅φi(x)
的驻点.
/example/ 求圆周 (x−1)2+y2=1 上的点与固定点 (0,1) 的距离的最大值、最小值.
在约束条件 (x−1)2+y2−1=0 下求距离函数 d=x2+(y−1)2 的最大值和最小值. 考虑辅助函数
F(x,y,λ)=x2+(y−1)2−λ[(x−1)2+y2−1],
求其驻点:
Fx′=Fy′=Fλ′=0⟺⎩⎨⎧x−λ(x−1)=0y−1−λy=0(x−1)2+y2−1=0⟹⎩⎨⎧x=1−λ−λy=1−λ1λ=1±2
在驻点处
d2=λ2,⇒d=∣λ∣,
由于 d 在圆周上达到最大、最小值,故其最大值必为 2+1,最小值必为 2−1.
/example/ 设 αi>0, xi>0, i=1,⋯,n. 证明
x1α1⋯xnαn≤(α1+⋯+αnα1x1+⋯+αnxn)α1+⋯+αn,
等号成立当且仅当 x1=x2=⋯=xn.
考虑函数
f(x1,⋯,xn)=ln(x1α1⋯xnαn)=i=1∑nαilnxi
在约束条件 i=1∑nαixi=c (c>0) 下的条件极值. 令
F(x,λ)=i=1∑nαilnxi−λ(i=1∑nαixi−c),
求驻点:
Fxi′=Fλ′=0⟹xiαi=λαi,i=1∑nαixi−c=0⟹xi=∑i=1nαic,i=1,⋯,n.
因为在集合
D:xi≥0,i=1∑nαixi=c
的边界上,f 取值为 −∞,因此 f 在 D 的内部取到最大值,上述唯一驻点必为最大值点,从而
ln(x1α1⋯xnαn)≤i=1∑nαiln∑i=1nαic,
即
x1α1⋯xnαn≤(α1+⋯+αnα1x1+⋯+αnxn)α1+⋯+αn.
· 二次型与极值
在利用 Hess(f) 判别极值时,需要判别其正定或负定性. 我们下面给出判别一个对称方阵为正定阵的方法.
设 A 为 n 阶对称实方阵,A 可以视为线性映射 A:Rn→Rn. 另一方面,A 也诱导出函数 Q:Rn→R,
Q(x)=⟨x,Ax⟩=i,j=1∑naijxixj,A=(aij)n×n.
因为 n−1 维球面
Sn−1={x∈Rn∣i=1∑nxi2=1}
为有界闭集,故 Q 在 Sn−1 可以取到最小值和最大值.
引理1.
Q(x) 在 Sn−1 上的最小值必为线性映射 A 的特征值.
/proof/
记 λ0=minSn−1{Q(x)},则存在 x0∈Sn−1,使得
λ0=Q(x0).
因此有
Q(x)≥λ0⋅∥x∥2,∀ x∈Rn.
特别地,对任意 y∈Rn, t∈R,有
φ(t)=Q(x0+ty)−λ0∥x0+ty∥2≥0.
φ(t) 关于 t 为光滑函数,t=0 时取到最小值 0,故 φ′(0)=0,简单的计算表明
⟨y,Ax0⟩+⟨x0,Ay⟩−λ0(⟨x0,y⟩+⟨y,x0⟩)=0.
由 A 为对称方阵得
⟨y,Ax0−λ0x0⟩=0.
取 y=Ax0−λ0x0,由内积的正定性,有
Ax0−λ0x0=0.
即 λ0 为特征值.
这个引理的证明可以推广如下:设 V⊂Rn 为子向量空间,如果 AV⊂V,则称 V 为 A 的一个不变子空间. 令
μ=inf{Q(x)∣x∈V, ∥x∥=1},
则完全类似的证明可以推出 μ 为 A 的特征值.
如果 V 为不变子空间,则其正交补
V⊥={y∈Rn∣⟨y,x⟩=0, ∀ x∈V}
也是 A 的不变子空间;而如果 μ 为特征值,则特征子空间
V(μ)={x∈Rn∣Ax=μx}
是不变子空间. 因此,如果重复上面的证明过程,我们就可以得到 A 的所有特征值
λ0≤λ1≤⋯≤λr,r≤n.
其中
λi=min{Q(x)∣x⊥V(λ0)⊕V(λ1)⊕⋯⊕V(λi−1), ∥x∥=1},i≥1.
从而有
引理2.
设 A 为 n 阶实对称方阵,则
(1) A 的特征值全为实数;
(2) A 为正定矩阵 ⟺ 其特征值都是正实数.
/proof/
(1) 以及 (2) 的 “⇒” 部分已证.
(2) 的 “⇐”:如果 A 的特征值 λ0,⋯,λr 均为正数,则 Rn 有正交分解
Rn=V(λ0)⊕V(λ1)⊕⋯⊕V(λr).
任给 x∈Rn, x=0,x 有正交分解
x=x0+x1+⋯+xr,xi∈V(λi),
从而
Q(x)=i=0∑rλi⋅∥xi∥2>0.
即 A 是正定方阵. 或者这样证:由于特征值都大于零,因而最小特征值也大于零,由引理1的证明即知 A 是正定的.
引理3.
设 A 为 n 阶实对称方阵,其正特征值个数(含重数)为 k,如果 V 为 Rn 的子向量空间,且对任意 x∈V (x=0),均有 Q(x)>0,则 dimV≤k.
/proof/
(反证法)设 dimV>k,记 A 的正特征值对应的特征子空间的直和为 V0,则 dimV0=k. 考虑正交投影
P:V→V0,
因为 dimV>dimV0,故 kerP={0}. 从而存在 x∈V (x=0) 使得 x⊥V0. 由引理2 的证明易见,此时必有 Q(x)≤0,这就导出了矛盾.
现在我们就得到了矩阵正定性的如下判别法:
定理4.
A=(aij)n×n 为正定方阵
⟺det(aij)1≤i≤k1≤j≤k>0, ∀ 1≤k≤n
/proof/
“⇒” 如果 A 正定,则显然 (aij)1≤i≤k1≤j≤k 正定,其特征值全为正实数,故行列式为正(行列式为特征值之积).
“⇐” 对 n 用归纳法. n=1 显然.
设命题对 n−1 成立,则对于 n 阶方阵,由归纳假设,(aij)1≤i≤n−11≤j≤n−1 正定,这说明 A 在子向量空间 Rn−1={x∈Rn∣xn=0} 上正定.
由引理3,A 至少有 n−1 个正的特征值. 又因为 detA>0,故所有特征值均为正数,由引理2 即知 A 是正定的.
· 函数的相关性和独立性
在线性代数中,向量空间中的一组向量有线性相关或线性独立的说法. 我们现在考虑多元函数的类似概念. 设 fi:U→R (1≤i≤m) 是定义在开集 U⊂Rn 上的一组连续可微函数. 这一组函数也可以看成向量值函数
F:U→Rm,F(x1,x2,⋯,xn)=(f1(x1,x2,⋯,xn),⋯,fm(x1,x2,⋯,xn))
的分量. 如果存在开集 V⊃F(U) 上定义的连续可微函数 Φ:V→R,使得
Φ(F)=Φ(f1,f2,⋯,fm)=0,且∇Φ(y)=0,∀ y∈V,
则称 {fi} 在 U 上函数相关.
如果 {fi} 函数相关,则根据隐函数定理,存在局部定义的连续可微函数 Ψ,使得 {fi} 中的某一个函数,比如 fj,可以表示为
fj=Ψ(f1,f2,⋯,fj−1,fj+1,⋯,fm),
这种等式也可以用来给出函数相关性的定义.
如果在任意点 x0∈U 附近,{fi} 均不是函数相关的,则称 {fi} 是一组彼此独立的函数. 如何判断函数的相关性或独立性呢?我们仍然用微分学的基本手段,即作线性化来研究这一问题.
如果 {fi} 是函数相关的,则对等式 Φ(F)=0 求导,得到下面的 Jacobian 之间的等式
JΦ⋅JF(x)=0,∀ x∈U.
因为 JΦ=∇Φ=0,上式表明 RankJF(x)<m, ∀ x∈U,其中 Rank 表示矩阵的秩.
特别地,我们就得到如下函数独立性的一个判别方法.
定理5.
设 m≤n, {fi} 如上. 如果 RankJF(x)=m, ∀ x∈U,则 {fi} 彼此独立;
特别地,当 m=n 且 detJF(x)=0 ∀ x∈U 时,{fi} 彼此独立.
重要
RankJF(x)=m 等价于说向量 {∇fi(x)}i=1m 线性无关.
/example/
设 fi(x)=j=1∑naijxj (1≤i≤n) 为 Rn 上的一组线性函数,则当 detA=0 时 {fi} 函数相关;
当 detA=0 时 {fi} 彼此独立,其中 A=(aij)n×n.
现在我们注意如下事实:
如果作变量替换 x=φ(u),则 {fi(x)} 的函数相关性和独立性与 {fi(φ(u))} 的函数相关性和独立性是一样的. 利用这件事实,我们考虑这样一个特殊情形,即假设 Jacobian JF 的秩满足条件
RankJF(x)≡l<m,∀ x∈U.
我们来说明在这种情形下,{fi} 在任何一点 x0∈U 附近都是函数相关的. 事实上,由于 JF(x0)=l,不妨设
det(∂xj∂fi)1≤i≤l1≤j≤l(x0)=0.
考虑函数
G:U→Rn,G(x1,x2,⋯,xn)=(f1(x),f2(x),⋯,fl(x),xl+1,⋯,xn),
易见 detJG(x0)=0,因此,根据逆映射定理,G 在 x0 附近可逆,其逆映射 φ=G−1 也是连续可微的,x=φ(u) 可视为变量替换. 在这个变量替换下,F 可写为
F∘φ(u)=(u1,u2,⋯,ul,Fl+1(u),⋯,Fn(u)).
因为 RankJ(F∘φ)=RankJF=l,从上式可知
∂uj∂Fi=0,∀ l+1≤i, j≤n.
这说明,在 u0=G(x0) 附近,Fi (l+1≤i≤n) 只依赖于变量 u1,⋯,ul. 特别地,映射 F∘φ 的分量在 u0=G(x0) 附近是函数相关的,因此 F 的分量在 x0 附近函数相关.
令
RankJF=x∈UmaxRankJF(x),
称 RankJF 为 F 在 U 上的秩.
如果 JF 在 x0∈U 处达到此秩,则在 x0 附近 JF 的秩也是 RankJF.
利用上述讨论,我们立即得到如下推论.
推论6.
设 {fi} 以及 F 如上. 如果 JF 在 x0∈U 达到最大秩 l,则它的 l 个分量在 x0 附近是彼此独立的,而其余的分量均和这 l 个分量函数相关.
更新日志
2025/12/23 07:36
查看所有更新日志
4d294-algebra于1563e-integral-q9于9a3ca-push于a87df-integral-+于