矩阵,当作为一种线性变换时,会将整个空间及空间中的所有向量都进行某种程度上的“调整”,具体体现为当其左乘一个向量时,结果会与原来的向量有所不同,这也就是“调整”后的结果。
引言
设有一个矩阵(线性变换)
当我们对其仔细观察其对空间中向量进行的线性变换时,会发现:在经过$A$变换后,空间中的所有向量的两个重要属性——长度和方向,并不是一定都会改变。会有一些特定方向上的向量,如:$x_1 = [2, -2]^T$,在经过$A$变换后,会变化为$x_1’ = [4, -4]^T$,其方向并没有改变,只是发生了长度上伸长为原来的2倍,并且与$x_1$同向的向量在经过$A$变换后都会产生一样的效果(伸长为原来的2倍),那还有没有这样的向量呢?
让我们来试图求解一下:
设向量x经过A变化后方向没有改变,只是发生了长度上的变化,则有:
$Ax = kx$ (k为常数)
即 $(A-kE)x = 0$
由于$(A-kE)$是一个矩阵,此时又变成了求解齐次线性方程组的问题,但不同的是,其中还有一个常数k我们不知道取什么。不过我们知道的是当$(A-kE)$满秩时,这个方程组无非零解,也就是当$k$取某些值时,没有这样的向量,使得经过线性变化后被线性放大了$k$倍,那首先我们就要看$k$可能的取值,也就是向量被放大的“可能倍数”,同时也是令这个方程组有解的取值。因此,我们:
令$|A-kE|=0$
解出$k$的可能取值分别带回到方程组里求解$x$,就找到了那些“经过A变化后方向没有改变,只是发生了长度上的变化”的向量,同时在求解时使用的$k$就是它们被放大的倍数。
此时我们就称,所求解的各个$k$为矩阵的特征值,而各个$x$则为特征向量。
相似
即使我们知道了矩阵的特征值和特征向量,那我们该如何去应用它呢,首先我们来介绍一下相似理论。
在矩阵论中,两个矩阵 $A$ 和 $B$ 被称为相似,如果存在一个可逆矩阵 $P$,使得:
这意味着,矩阵 $A$ 和 $B$ 本质上表现出相同的线性变换性质,只不过它们是在不同的基下表示的。相似矩阵拥有相同的特征值,并且它们的特征向量之间也有密切的联系。
对角化
有了相似理论的基础,我们就可以将特征值和特征向量描述成一个相似矩阵,其为对角矩阵。
设矩阵 $A$ 是一个 $n \times n$ 的方阵,如果存在一个可逆矩阵 $P$ 和一个对角矩阵 $D$,使得:
那么我们就说矩阵 $A$ 是可对角化的。
对角化矩阵的好处在于,通过寻找其特征值和特征向量,我们可以将复杂的矩阵变换简化为对角矩阵的简单操作。特别地,当我们对角化矩阵时,矩阵的对角元素就是其特征值,而列向量则对应其特征向量。
对角化的条件
要对角化一个矩阵,我们需要满足以下两个条件:
- 矩阵必须是方阵:即它必须有相同数量的行和列。
- 矩阵的特征值必须是唯一的,或其特征向量的数量足够多:具体来说,如果一个 $n \times n$ 矩阵有 $n$ 个线性无关的特征向量,则该矩阵可以对角化。
如果一个矩阵的特征值重复,那么该矩阵可能仍然是可对角化的,只要它的特征向量够多;否则,它将不可对角化。
对角化过程
设矩阵 $A$ 的特征值为 $\lambda_1, \lambda_2, \ldots, \lambda_n$,对应的线性无关的特征向量为 $x_1, x_2, \ldots, x_n$。我们可以构造一个矩阵 $P$,其列为这些特征向量,即:
然后,我们可以定义一个对角矩阵 $D$,其对角线元素为这些特征值:
如果 $A$ 是可对角化的,那么我们就有:
这样一来,矩阵 $A$ 的任何幂次(如 $A^n$)都可以通过对角矩阵 $D$ 的幂次来简单计算:
由于 $D$ 是对角矩阵,其幂次计算非常简单,只需对每个对角元素取幂。因此,通过对角化,许多涉及矩阵的复杂计算问题变得简单明了。
应用
相似性的重要性在于:如果我们能够找到一个矩阵与某个对角矩阵相似,那么对该矩阵的许多计算(如求幂、求指数等)将会变得更加容易。