外观
Chapter 11 特征值
约 7115 字大约 24 分钟
2026-01-03
在这几章中,我们主要研究有限维线性空间上的线性变换。
Part 1 特征值和特征向量
我们特别关心这样一个问题:对给定线性空间 V 上的线性变换,能否找到 V 的一组基,使得该线性变换在这组基下的表示矩阵具有特别简单的形状。比如,若我们能找到 V 的一组基 {e1,e2,⋯,en},使线性变换 φ 在这组基下的表示矩阵为对角阵:
a1a2⋱an.
这时,若 α=k1e1+k2e2+⋯+knen,则
φ(α)=a1k1e1+a2k2e2+⋯+anknen.
线性变换 φ 的表达式非常简单。线性变换 φ 的许多性质也变得一目了然。如若 a1,a2,⋯,ar 不为零,而 ar+1=⋯=an=0,则 φ 的秩为 r,且 Imφ 就是由 {e1,e2,⋯,er} 生成的子空间,而 kerφ 则是由 {er+1,⋯,en} 生成的子空间,等等。
由第四章我们已经知道,一个线性变换在不同基下的表示矩阵是相似的。因此用矩阵的语言重述上面提到的问题就是:能否找到一类特别简单的矩阵,使任一矩阵与这类矩阵中的某一个相似?
比如,我们可以问:是否所有的矩阵都相似于对角阵?若不然,哪一类矩阵可以相似于对角阵?
我们知道,若线性空间 V 可分解为
V=V1⊕V2⊕⋯⊕Vm,(1)
其中每个 Vi 都是线性变换 φ 的不变子空间,那么 φ 可以表示为分块对角阵。我们当然希望 (1) 式中的 Vi 越小越好。最小的非零子空间是一维子空间。若 Vi 是一维子空间,x 是其中的任一非零向量,φ 在 Vi 上的作用相当于一个数乘,于是存在 λ∈K,使
φ(x)=λx.
定义1
设 φ 是数域 K 上的线性空间 V 的线性变换,若 λ∈K,x∈V 且 x=0,使
φ(x)=λx,(2)
则称 λ 是线性变换 φ 的一个特征值,向量 x 称为 φ 关于特征值 λ 的特征向量。
由 (2) 式我们可以看出,φ 关于特征值 λ 的全体特征向量再加上零向量构成 V 的一个子空间。事实上,若向量 x,y 是属于特征值 λ 的特征向量,则
φ(x+y)=φ(x)+φ(y)=λx+λy=λ(x+y),
φ(cx)=cφ(x)=cλx=λ(cx).
因此 φ 属于特征值 λ 的特征向量全体加上零向量构成 V 的子空间,记为 Vλ,称为 φ 的属于特征值 λ 的特征子空间。显然 Vλ 是 φ 的不变子空间。
现在设 φ 在某组基下的表示矩阵为 A,向量 x 在这组基下可表示为一个列向量 α。这时 (2) 式等价于
Aα=λα,(3)
(3) 式也等价于
(λIn−A)α=0.(4)
定义2
设 A 是数域 K 上的 n 阶方阵,若存在 λ∈K 及 n 维非零列向量 α,使 (3) 式成立,则称 λ 是矩阵 A 的一个特征值,α 为 A 关于特征值 λ 的特征向量。齐次线性方程组 (λIn−A)x=0 的解空间 Vλ 称为 A 关于特征值 λ 的特征子空间。
我们已经定义了线性变换与矩阵的特征值,现在的问题是如何来求一个线性变换或一个矩阵的特征值?
从 (4) 式可以看出,要使 α 非零,必须 ∣λIn−A∣=0。反过来若 λ∈K 且 ∣λIn−A∣=0,则 (4) 式有非零解 α。
因此寻找矩阵 A 的特征值等价于寻找行列式 ∣λIn−A∣=0 时 λ 的值。设 A=(aij),则
∣λIn−A∣=λ−a11−a21⋮−an1−a12λ−a22⋮−an2⋯⋯⋱⋯−a1n−a2n⋮λ−ann(5)
是一个以 λ 为未知数的 n 次首一多项式。
定义3
设 A 是 n 阶方阵,称 ∣λIn−A∣ 为 A 的特征多项式。
由上面的讨论可得矩阵 A 的特征值就是它的特征多项式的根。读者会提出这样的问题:既然同一个线性变换在不同基下的表示矩阵是相似的,那么相似矩阵是否有相同的特征值?回答是肯定的,这就是下面的定理。
定理1
若 B 与 A 相似,则 B 与 A 具有相同的特征多项式,从而具有相同的特征值(计重数)。
/proof/
设 B=P−1AP,其中 P 是可逆阵,则
∣λIn−B∣=∣P−1(λIn−A)P∣=∣P−1∣∣λIn−A∣∣P∣=∣λIn−A∣.
因此相似矩阵必有相同的特征多项式,从而必有相同的特征值(计重数)。
定义4
设 φ 是线性空间 V 上的线性变换,φ 在 V 的某组基下的表示矩阵为 A,由定理 1 知 ∣λIn−A∣ 与基或表示矩阵的选取无关,称 ∣λIn−A∣ 为 φ 的特征多项式,记为 ∣λIV−φ∣。
设
∣λIn−A∣=λn+a1λn−1+⋯+an−1λ+an=(λ−λ1)(λ−λ2)⋯(λ−λn).
由 Vieta 定理知 λ1+λ2+⋯+λn=−a1,λ1λ2⋯λn=(−1)nan。由行列式 (5) 不难看出 a1=−(a11+a22+⋯+ann)=−trA,an=(−1)n∣A∣。因此 A 的 n 个特征值之和及之积分别为
λ1+λ2+⋯+λn=trA,
λ1λ2⋯λn=∣A∣.
从上面的分析我们可以得出求一个矩阵的特征值与特征向量的方法:作矩阵 λIn−A(通常称之为 A 的特征矩阵)并求出特征多项式 ∣λIn−A∣ 的根,这就是 A 的特征值。将每个特征值代入线性方程组
(λIn−A)x=0,
求出非零解,就是关于特征值 λ 的特征向量。
/example/ 设 A 是一个上三角阵:
a110⋮0a12a22⋮0⋯⋯⋱⋯a1na2n⋮ann.
求 A 的特征值。
∣λIn−A∣ 是一个上三角行列式,因此
∣λIn−A∣=(λ−a11)(λ−a22)⋯(λ−ann),
即 A 的特征值等于 A 主对角线上的元素 a11,a22,⋯,ann。对下三角阵也有类似的结论。
/example/ 求下列矩阵的特征值:
A=(01−10).
因为
λ−11λ=λ2+1,
所以 A 的特征值为 i,−i。
上例表明,即使是有理数域上的矩阵,其特征值有可能是虚数。这就是说,对数域 K 上的矩阵(或相应的线性变换),有可能在 K 中不存在特征值。但是对复数域来说,任一 n 阶方阵总存在特征值。因此在考虑特征值问题时,我们常常放在复数域里讨论。
从前面我们也看到,一个上三角(或下三角)阵的特征值都在主对角线上。如果我们能把一个矩阵相似地变到一个上三角阵,那么它的特征值也就一目了然了。但是,由于一个矩阵的特征值有可能是虚数,因此数域 K 上的矩阵未必能相似于一个上三角阵。然而复数域 C 上的矩阵,它们总相似于上三角(或下三角)阵。
定理2
任一复方阵必(复)相似于一上三角阵。
/proof/
设 A 是 n 阶复方阵,现对 n 用数学归纳法。当 n=1 时结论显然。假定对 n−1 阶矩阵结论成立,现对 n 阶矩阵 A 来证明。设 λ 是 A 的一个特征值,则存在非零列向量 α1,使
Aα1=λα1.
将 α1 作为 Cn 的一个基向量,并扩展为 Cn 的一组基 {α1,α2,⋯,αn}。将这些基向量按照列分块方式拼成矩阵 P=(α1,α2,⋯,αn),则 P 为 n 阶非异阵,且
AP=A(α1,α2,⋯,αn)=(Aα1,Aα2,⋯,Aαn)=(α1,α2,⋯,αn)(λO∗A1),
其中 A1 是一个 n−1 阶方阵。注意到 P=(α1,α2,⋯,αn) 非异,上式即为
P−1AP=(λO∗A1).
因为 A1 是一个 n−1 阶方阵,所以由归纳假设可知,存在非异的 n−1 阶矩阵 Q,使 Q−1A1Q 是一个上三角阵。令
R=(1OOQ),
则 R 也是非异阵,且
R−1P−1APR=(1OOQ)−1(λO∗A1)(1OOQ)=(1OOQ−1)(λO∗A1)(1OOQ)=(λO∗Q−1A1Q).
这是一个上三角阵,它与 A 相似。
重要
虽然一般数域 K 上的矩阵未必相似于上三角阵,但是从定理 2 的证明可以看出,若数域 K 上的 n 阶方阵 A 的特征值全在 K 中,则存在 K 上的非异阵 P,使 P−1AP 是一个上三角阵。
作为定理 2 的应用,我们来证明 3 个有用的命题。首先,若 A 是一个 n 阶矩阵,f(x)=amxm+am−1xm−1+⋯+a1x+a0 是一个多项式,记
f(A)=amAm+am−1Am−1+⋯+a1A+a0In.
我们来考虑矩阵 A 的特征值与矩阵 f(A) 的特征值之间的关系。
命题1
设矩阵 A 是 n 阶方阵,λ1,λ2,⋯,λn 是 A 的全部特征值,又 f(x) 是一个多项式,则 f(λ1),f(λ2),⋯,f(λn) 是 f(A) 的全部特征值。
/proof/
因为任意一个 n 阶矩阵均(复)相似于上三角阵,可设
P−1AP=λ10⋮0∗λ2⋮0⋯⋯⋱⋯∗∗⋮λn.
因为上三角阵的和、数乘及乘方仍是上三角阵,经计算不难得到
P−1f(A)P=f(P−1AP)=f(λ1)0⋮0∗f(λ2)⋮0⋯⋯⋱⋯∗∗⋮f(λn).
因此 f(A) 的全部特征值为 f(λ1),f(λ2),⋯,f(λn)。
命题2
设 n 阶矩阵 A 适合一个多项式 g(x),即 g(A)=O,则 A 的任一特征值 λ 也必适合 g(x),即 g(λ)=0。
/proof/
设 α 是 A 属于特征值 λ 的特征向量,经简单计算得
g(λ)α=g(A)α=0.
而 α=0,因此 g(λ)=0。
对可逆阵 A,其逆阵 A−1 的特征值和 A 的特征值有什么关系呢?下面的命题回答了这个问题。
命题3
设 n 阶矩阵 A 是可逆阵,且 A 的全部特征值为 λ1,λ2,⋯,λn,则 A−1 的全部特征值为 λ1−1,λ2−1,⋯,λn−1。
/proof/
首先注意到 A 是可逆阵,λ1λ2⋯λn=∣A∣=0,因此每个 λi=0(事实上,A 可逆的充分必要条件是它的特征值全不为零)。
由定理 2 可设
P−1AP=λ10⋮0∗λ2⋮0⋯⋯⋱⋯∗∗⋮λn.
因为上三角阵的逆阵仍是上三角阵,经计算不难得到
P−1A−1P=(P−1AP)−1=λ1−10⋮0∗λ2−1⋮0⋯⋯⋱⋯∗∗⋮λn−1.
因此 A−1 的全部特征值为 λ1−1,λ2−1,⋯,λn−1。
Part 2 对角化
什么样的矩阵相似于一个对角阵?
我们注意到,如果矩阵 A 相似于对角阵:
λ1λ2⋱λn,(1)
则 A 代表了一个 n 维线性空间中的线性变换 φ,φ 在某一组基 {e1,e2,⋯,en} 下的表示矩阵为对角阵 (1)。于是 φ(ei)=λiei,即 e1,e2,⋯,en 是 φ 的特征向量。也就是说 φ 有 n 个线性无关的特征向量。
反过来,若 n 阶方阵 A 有 n 个线性无关的特征向量,这说明 A 代表的 n 维线性空间 V 中的线性变换 φ 有 n 个线性无关的特征向量,这一组向量构成 V 的一组基,φ 在这组基下的表示矩阵显然就是一个对角阵。
这样我们就证明了下述定理。
定理 1
设 A 是 n 阶方阵,则 A 相似于对角阵的充分必要条件是 A 有 n 个线性无关的特征向量(这样的矩阵称为可对角化矩阵)。
与上述定理等价的有下列定理。
定理 2
设 φ 是 n 维线性空间 V 上的线性变换,则存在 V 的一组基,使得 φ 在这组基下的表示矩阵为对角阵的充分必要条件是 φ 有 n 个线性无关的特征向量(这样的线性变换称为可对角化线性变换)。
那么是否任一 n 阶方阵均有 n 个线性无关的特征向量呢?当然不是!
/example/
矩阵
A=(1011)
的特征值为 1,1。将 λ=1 代入 (λI2−A)x=0,求得 A 的特征向量为
k(10),k∈K∖{0}.
这表明 A 只有一个线性无关的特征向量,因此 A 不能对角化。
事实上,如果 A 可以对角化,由于 A 的特征值是 1,1,所以 A 将相似于 I2,即存在可逆阵 P,使得 P−1AP=I2。于是 A=PI2P−1=I2,引出矛盾.
现在我们来讨论不同的特征值和它们相应的特征向量有什么关系。设 n 维线性空间 V 上的线性变换 φ 有 k 个不同特征值:λ1,λ2,⋯,λk,相应的特征子空间为 V1,V2,⋯,Vk。
定理3 若 λ1,λ2,⋯,λk 为数域 K 上 n 维线性空间 V 上线性变换 φ 的不同的特征值,则
V1+V2+⋯+Vk=V1⊕V2⊕⋯⊕Vk.
/proof/
对 k 用数学归纳法。若 k=1,结论显然。现设对 k−1 个不同的特征值 λ1,λ2,⋯,λk−1,它们相应的特征子空间 V1,V2,⋯,Vk−1 之和是直和。我们要证明 V1,V2,⋯,Vk−1,Vk 之和为直和,这只需证明:
Vk∩(V1+V2+⋯+Vk−1)=0(2)
即可。设 v∈Vk∩(V1+V2+⋯+Vk−1),则
v=v1+v2+⋯+vk−1,(3)
其中 vi∈Vi (i=1,2,⋯,k−1)。在 (3) 式两边作用 φ,得
φ(v)=φ(v1)+φ(v2)+⋯+φ(vk−1).
但 v1,v2,⋯,vk−1 都是 φ 的特征向量或零向量,因此
λkv=λ1v1+λ2v2+⋯+λk−1vk−1.(4)
在 (3) 式两边乘以 λk 减去 (4) 式得
0=(λk−λ1)v1+(λk−λ2)v2+⋯+(λk−λk−1)vk−1.
由归纳假设,V1+V2+⋯+Vk−1 是直和,因此 (λk−λi)vi=0,而 λk−λi=0,从而 vi=0 (i=1,2,⋯,k−1)。这就证明了 (2) 式。
推论1
线性变换 φ 属于不同特征值的特征向量必线性无关。
推论2
若 n 维线性空间 V 上的线性变换 φ 有 n 个不同的特征值,则 φ 必可对角化。
推论 2 另外一个等价的说法就是:若线性变换 φ 的特征多项式没有重根,则 φ 可对角化。注意推论 2 只是可对角化的充分条件而非必要条件,比如说纯量变换 φ=cIV 当然可对角化,但 φ 的 n 个特征值都是 c。由定理 3,我们还可以得到可对角化的第二个充分必要条件。
推论3
设 φ 是 n 维线性空间 V 上的线性变换,λ1,λ2,⋯,λk 是 φ 的全部不同的特征值,Vi (i=1,2,⋯,k) 是特征值 λi 的特征子空间,则 φ 可对角化的充分必要条件是
V=V1⊕V2⊕⋯⊕Vk.
/proof/
先证充分性。设
V=V1⊕V2⊕⋯⊕Vk,
分别取 Vi 的一组基 {ei1,ei2,⋯,eiti} (i=1,2,⋯,k),知这些向量拼成了 V 的一组基,并且它们都是 φ 的特征向量。因此 φ 有 n 个线性无关的特征向量,从而 φ 可对角化。
再证必要性。设 φ 可对角化,则 φ 有 n 个线性无关的特征向量 {e1,e2,⋯,en},它们构成了 V 的一组基。
不失一般性,可设这组基中前 t1 个是关于特征值 λ1 的特征向量;接下去的 t2 个是关于特征值 λ2 的特征向量;……;最后 tk 个是关于特征值 λk 的特征向量。
对任一 α∈V,设 α=a1e1+a2e2+⋯+anen,则 α 可写成 V1,V2,⋯,Vk 中向量之和,因此由定理 3 可得
V=V1+V2+⋯+Vk=V1⊕V2⊕⋯⊕Vk.
为了易于从计算的层面判定可对角化,我们引入特征值的度数和重数的概念。
定义1
设 φ 是 n 维线性空间 V 上的线性变换,λ0 是 φ 的一个特征值,V0 是属于 λ0 的特征子空间,称 dimV0 为 λ0 的度数或几何重数。λ0 作为 φ 的特征多项式根的重数称为 λ0 的重数或代数重数。
特征值的度数和重数之间有如下的不等式关系。
引理1
设 φ 是 n 维线性空间 V 上的线性变换,λ0 是 φ 的一个特征值,则 λ0 的度数总是小于等于 λ0 的重数。
/proof/
设特征值 λ0 的重数为 m,度数为 t,又 V0 是属于 λ0 的特征子空间,则 dimV0=t。设 {e1,⋯,et} 是 V0 的一组基。由于 V0 中的非零向量都是 φ 关于 λ0 的特征向量,故
φ(ej)=λ0ej,j=1,⋯,t.
将 {e1,⋯,et} 扩充为 V 的一组基,记为 {e1,⋯,et,et+1,⋯,en},则 φ 在这组基下的表示矩阵为
A=(λ0ItO∗B),(5)
其中 B 是一个 n−t 阶方阵。矩阵 A 的特征多项式具有如下形状:
∣λIn−A∣=(λ−λ0)t∣λIn−t−B∣.
这表明 λ0 的重数至少为 t,即 t≤m。
定义2
设 φ 是 n 维线性空间 V 上的线性变换,若 φ 的任一特征值的度数等于重数,则称 φ 有完全的特征向量系。
下面我们给出可对角化的第三个充分必要条件。
定理4
设 φ 是 n 维线性空间 V 上的线性变换,则 φ 可对角化的充分必要条件是 φ 有完全的特征向量系。
/proof/
设 λ1,λ2,⋯,λk 是 φ 的全部不同的特征值,它们对应的特征子空间,重数和度数分别记为 Vi,mi,ti (i=1,2,⋯,k)。由重数的定义以及引理 1 可知
m1+m2+⋯+mk=n,ti≤mi,i=1,2,⋯,k.
由推论 3,我们只要证明 φ 有完全的特征向量系当且仅当 V=V1⊕V2⊕⋯⊕Vk。
若 V=V1⊕V2⊕⋯⊕Vk,则
n=dimV=dim(V1⊕V2⊕⋯⊕Vk)=dimV1+dimV2+⋯+dimVk=i=1∑kti≤i=1∑kmi=n,
因此 ti=mi (i=1,2,⋯,k),即 φ 有完全的特征向量系。反过来,若 φ 有完全的特征向量系,则
dim(V1⊕V2⊕⋯⊕Vk)=i=1∑kti=i=1∑kmi=n=dimV,
从而 V=V1⊕V2⊕⋯⊕Vk 成立。
已知可对角化矩阵 A,如何求出 P 使 P−1AP 是对角阵,下面我们来讨论这个问题。设 A 的特征值为 λ1,λ2,⋯,λn。注意 P 为可逆阵,不妨设 P=(α1,α2,⋯,αn) 是 P 的列向量分块。因为
P−1AP=diag{λ1,λ2,⋯,λn},
所以
AP=Pdiag{λ1,λ2,⋯,λn}.
因此
(Aα1,Aα2,⋯,Aαn)=(λ1α1,λ2α2,⋯,λnαn).
即有 Aαi=λiαi,故 αi 就是属于特征值 λi 的特征向量。因此 P 的 n 个列向量就是 A 的 n 个特征向量。这表明,只要我们求出 A 的 n 个线性无关的特征向量,将它们放在一起组成一个矩阵就是要求的 P。
重要
因为特征向量不唯一,所以 P 不唯一。另外,还要注意第 i 个列向量对应于第 i 个特征值。
/example/ 判断矩阵 A 是否相似于对角阵,如是,求出可逆阵 P,使 P−1AP 为对角阵:
A=1−2−20540−2−1.
先计算 A 的特征值
∣λI3−A∣=λ−1220λ−5−402λ+1=(λ−1)2(λ−3).
A 有特征值 1(二重)及 3(一重)。当 λ=1 时 (λI3−A)x=0 为
⎩⎨⎧2x1−4x2+2x3=0,2x1−4x2+2x3=0.
显然这个方程组的系数矩阵秩为 1,因此解空间维数等于 2。不难求得方程组的基础解系为
β1=210,β2=−101.
当 λ=3 时,不难求得方程组 (3I3−A)x=0 的基础解系为(只有一个向量):
β3=011.
因此
P=210−101011,P−1AP=100010003.
/example/ 计算 A10:
A=(110−2).
用上例的方法求得
P=(3101),P−1AP=(100−2).
因此
A10=P(100−2)10P−1=(11−2100210).
Part 3 极小多项式
我们已经知道,数域 K 上的全体 n×n 矩阵组成了 K 上的线性空间,其维数等于 n2。因此下列 n2+1 个矩阵必线性相关:
An2,An2−1,⋯,A,In.
也就是说,存在 K 中不全为零的数 ci (i=0,1,2,⋯,cn2),使得
cn2An2+cn2−1An2−1+⋯+c1A+c0In=O.
这表明矩阵 A 适合数域 K 上的一个多项式。
· 极小多项式
定义 1
若 n 阶矩阵 A(或 n 维线性空间 V 上的线性变换 φ)适合一个非零首一多项式 m(x),且 m(x) 是 A(或 φ)所适合的非零多项式中次数最小者,则称 m(x) 是 A(或 φ)的一个极小多项式或最小多项式。
从本节开始的说明我们知道,极小多项式肯定是存在的,它唯一吗?
引理1
若 f(x) 是 A 适合的一个多项式,则 A 的极小多项式 m(x) 整除 f(x)。
/proof/
由多项式的带余除法知道
f(x)=m(x)q(x)+r(x),
且 degr(x)<degm(x)。将 x=A 代入上式得 r(A)=O,若 r(x)=0,则 A 适合一个比 m(x) 次数更小的非零多项式,矛盾。故 r(x)=0,即 m(x)∣f(x)。
命题 1
任一 n 阶矩阵的极小多项式必唯一。
/proof/
若 m(x),g(x) 都是矩阵 A 的极小多项式,则由上述引理知道 m(x) 能够整除 g(x),g(x) 也能够整除 m(x)。因此 m(x) 与 g(x) 只差一个常数因子,但极小多项式又必须首项系数为 1,故 g(x)=m(x)。□
/example/
(1) 纯量阵 A=cIn 的极小多项式 m(x)=x−c。
(2) 方阵 A=(0010) 满足 A2=O,因此由引理 1 知 A 的极小多项式 m(x) 必整除 x2。因为 A=O,所以 m(x)=x,从而只能是 m(x)=x2。这个例子也告诉我们,矩阵的极小多项式未必是不可约多项式。
命题 2
相似的矩阵具有相同的极小多项式。
/proof/
设矩阵 A 的极小多项式是 m(x),矩阵 B 的极小多项式是 g(x),又 A 和 B 相似,B=P−1AP。注意到
m(B)=m(P−1AP)=P−1m(A)P=O,
因此 g(x)∣m(x)。同理,m(x)∣g(x),故 m(x)=g(x)。
命题 3
设 A 是一个分块对角阵
A=A1A2⋱Ak,
其中 Ai 都是方阵,则 A 的极小多项式等于诸 Ai 的极小多项式之最小公倍式。
/proof/
设 Ai 的极小多项式为 mi(x),A 的极小多项式为 m(x)。诸 mi(x) 的最小公倍式是 g(x),则 g(Ai)=O,故
g(A)=g(A1)g(A2)⋱g(Ak)=O,
因此 m(x)∣g(x)。又因为
m(A)=m(A1)m(A2)⋱m(Ak)=O,
因此对每个 i 有 m(Ai)=O,即有 mi(x)∣m(x)。而 g(x) 是诸 mi(x) 的最小公倍式,故 g(x)∣m(x)。
综上所述,m(x)=g(x)。
/example/ 设 n 阶方阵 A 可对角化,λ1,λ2,⋯,λk 是 A 的全部不同的特征值,求 A 的极小多项式。
设 A 的极小多项式为 m(x)。由 A 可对角化知存在非异阵 P,使
P−1AP=B=B1B2⋱Bk,
其中 Bi=λiI (1≤i≤k) 为纯量阵。由例 1,命题 2 和命题 3 可得
m(x)=[x−λ1,x−λ2,⋯,x−λk]=(x−λ1)(x−λ2)⋯(x−λk).
从上面的例子可以看出,A 的特征值都是极小多项式的根。事实上,这一结论对任意方阵都是成立的。
引理2
设 m(x) 是 n 阶矩阵 A 的极小多项式,λ0 是 A 的特征值,则
(x−λ0)∣m(x).
/proof/
由 m(A)=O 及命题 6.1.2 可得 m(λ0)=0,故结论成立。
· Cayley-Hamilton
从本节开始的分析知道,n 阶矩阵的极小多项式的次数最多不超过 n2。但是这个估计实在比较粗,我们可以估计得更精确些。
为了研究一个矩阵可能适合的多项式,我们先看比较简单的情形。设 A 是一个上三角阵:
A=λ1a12λ2⋯⋯⋱a1na2n⋮λn,
主对角线上的元素 λ1,λ2,⋯,λn 正好是 A 的全部特征值。将 A 依次作用于标准单位列向量 e1,e2,⋯,en,可得 n 个等式:
Ae1=λ1e1,
Ae2=a12e1+λ2e2,
⋯⋯
Aei=a1ie1+⋯+ai−1,iei−1+λiei,
⋯⋯
Aen=a1ne1+⋯+an−1,nen−1+λnen.
作
f(x)=(x−λ1)(x−λ2)⋯(x−λn),
注意到 (A−λiIn)(A−λjIn)=(A−λjIn)(A−λiIn),不难算出:
f(A)(ei)=(A−λ1In)(A−λ2In)⋯(A−λnIn)(ei)=0
对一切 i=1,2,⋯,n 成立,因此 f(A)=O。而 f(x) 是 A 的特征多项式,因此 A 适合它的特征多项式。我们很容易把上述结论推广到一般的情形。
定理1 (Cayley-Hamilton 定理) 设 A 是数域 K 上的 n 阶矩阵,f(x) 是 A 的特征多项式,则 f(A)=O。
A 复相似于一个上三角阵,也就是说存在可逆阵 P,使 P−1AP=B,B 是一个上三角阵,其中 P 与 B 都是复矩阵,但 A 与 B 有相同的特征多项式 f(x)。记
f(x)=xn+a1xn−1+⋯+an,
则 f(B)=O。而
f(A)=An+a1An−1+⋯+anIn=(PBP−1)n+a1(PBP−1)n−1+⋯+anIn=PBnP−1+a1PBn−1P−1+⋯+anIn=P(Bn+a1Bn−1+⋯+anIn)P−1=Pf(B)P−1=O.
推论1
n 阶矩阵 A 的极小多项式是其特征多项式的因式。特别的,A 的极小多项式的次数不超过 n。
/proof/
由 Cayley-Hamilton 定理及引理 1 即得结论。
推论2
n 阶矩阵 A 的极小多项式和特征多项式有相同的根(不计重数)。
/proof/
由引理 2 和推论 1 即得结论。
由于矩阵与线性变换之间有一一对应关系,因此我们有下述推论。
推论3 (Cayley-Hamilton 定理)
设 φ 是 n 维线性空间 V 上的线性变换,f(x) 是 φ 的特征多项式,则 f(φ)=0。
更新日志
2026/1/9 12:04
查看所有更新日志
a4974-docs:dev于cf640-algebra-11于