矩阵的特征 | Tairan Chen(陈泰然)

矩阵，当作为一种线性变换时，会将整个空间及空间中的所有向量都进行某种程度上的“调整”，具体体现为当其左乘一个向量时，结果会与原来的向量有所不同，这也就是“调整”后的结果。

引言

设有一个矩阵（线性变换）

$A=\left|\begin{matrix} 3 & 1 \\ 1 & 3 \end{matrix}\right|$

当我们对其仔细观察其对空间中向量进行的线性变换时，会发现：在经过$A$变换后，空间中的所有向量的两个重要属性——长度和方向，并不是一定都会改变。会有一些特定方向上的向量，如：$x_1 = [2, -2]^T$,在经过$A$变换后，会变化为$x_1’ = [4, -4]^T$，其方向并没有改变，只是发生了长度上伸长为原来的2倍，并且与$x_1$同向的向量在经过$A$变换后都会产生一样的效果（伸长为原来的2倍），那还有没有这样的向量呢？

让我们来试图求解一下：

设向量x经过A变化后方向没有改变，只是发生了长度上的变化，则有：

$Ax = kx$ （k为常数）

即 $(A-kE)x = 0$

由于$(A-kE)$是一个矩阵，此时又变成了求解齐次线性方程组的问题，但不同的是，其中还有一个常数k我们不知道取什么。不过我们知道的是当$(A-kE)$满秩时，这个方程组无非零解，也就是当$k$取某些值时，没有这样的向量，使得经过线性变化后被线性放大了$k$倍，那首先我们就要看$k$可能的取值，也就是向量被放大的“可能倍数”，同时也是令这个方程组有解的取值。因此，我们：

令$|A-kE|=0$

解出$k$的可能取值分别带回到方程组里求解$x$，就找到了那些“经过A变化后方向没有改变，只是发生了长度上的变化”的向量，同时在求解时使用的$k$就是它们被放大的倍数。

此时我们就称，所求解的各个$k$为矩阵的特征值，而各个$x$则为特征向量。

相似

即使我们知道了矩阵的特征值和特征向量，那我们该如何去应用它呢，首先我们来介绍一下相似理论。

在矩阵论中，两个矩阵 $A$ 和 $B$ 被称为相似，如果存在一个可逆矩阵 $P$，使得：

$A = PBP^{-1}$

这意味着，矩阵 $A$ 和 $B$ 本质上表现出相同的线性变换性质，只不过它们是在不同的基下表示的。相似矩阵拥有相同的特征值，并且它们的特征向量之间也有密切的联系。

对角化

有了相似理论的基础，我们就可以将特征值和特征向量描述成一个相似矩阵，其为对角矩阵。

设矩阵 $A$ 是一个 $n \times n$ 的方阵，如果存在一个可逆矩阵 $P$ 和一个对角矩阵 $D$，使得：

$A = PDP^{-1}$

那么我们就说矩阵 $A$ 是可对角化的。

对角化矩阵的好处在于，通过寻找其特征值和特征向量，我们可以将复杂的矩阵变换简化为对角矩阵的简单操作。特别地，当我们对角化矩阵时，矩阵的对角元素就是其特征值，而列向量则对应其特征向量。

对角化的条件

要对角化一个矩阵，我们需要满足以下两个条件：

矩阵必须是方阵：即它必须有相同数量的行和列。
矩阵的特征值必须是唯一的，或其特征向量的数量足够多：具体来说，如果一个 $n \times n$ 矩阵有 $n$ 个线性无关的特征向量，则该矩阵可以对角化。

如果一个矩阵的特征值重复，那么该矩阵可能仍然是可对角化的，只要它的特征向量够多；否则，它将不可对角化。

对角化过程

设矩阵 $A$ 的特征值为 $\lambda_1, \lambda_2, \ldots, \lambda_n$，对应的线性无关的特征向量为 $x_1, x_2, \ldots, x_n$。我们可以构造一个矩阵 $P$，其列为这些特征向量，即：

$P = [x_1, x_2, \ldots, x_n]$

然后，我们可以定义一个对角矩阵 $D$，其对角线元素为这些特征值：

$D = \text{diag}(\lambda_1, \lambda_2, \ldots, \lambda_n)$

如果 $A$ 是可对角化的，那么我们就有：

$A = PDP^{-1}$

这样一来，矩阵 $A$ 的任何幂次（如 $A^n$）都可以通过对角矩阵 $D$ 的幂次来简单计算：

$A^n = PD^nP^{-1}$

由于 $D$ 是对角矩阵，其幂次计算非常简单，只需对每个对角元素取幂。因此，通过对角化，许多涉及矩阵的复杂计算问题变得简单明了。

应用

相似性的重要性在于：如果我们能够找到一个矩阵与某个对角矩阵相似，那么对该矩阵的许多计算（如求幂、求指数等）将会变得更加容易。