当前位置：首页 > news >正文

【读书笔记】Introduction to Linear Algebra | 第 7 章：奇异值分解 (SVD)

news 2026/3/27 1:59:19

本章进入线性代数中最重要的分解之一——奇异值分解（SVD）。它不仅是特征值分解的推广，更是理解矩阵几何意义、数据降维（如 PCA）和求解线性方程组的核心工具。

7.2 Bases and Matrices in the SVD

参考资料：书（知识点&例题）、视频、习题

知识点回顾

SVD 的存在性 任意 $m \times n$ 阶矩阵 $A$ 均能进行奇异值分解： $$ A = U \Sigma V^T $$ 原因：由于 $AA^T$ 和 $A^T A$ 均为半正定矩阵，肯定能对角化，因此 $A$ 肯定能写成这种形式。这也给出了 $A$ 进行奇异值分解的求法。

奇异值分解的求法

已知 $A = U \Sigma V^T$，则： $$ AA^T = U \Sigma \Sigma^T U^T \quad \text{或} \quad A^T A = V \Sigma^T \Sigma V^T $$ 只需分别求出这两个半正定矩阵的特征值和特征向量即可。

⚠️ 注意：在使用 $A^T A$（或 $AA^T$）求出 $V$（或 $U$）后，最好使用公式 $A v_i = \sigma_i u_i$ 来求解另一组基，而不是单独计算 $AA^T$ 的特征向量。直接分别计算可能会导致特征向量符号不一致的问题。

详细例题可参考吉尔伯特教授关于 SVD 的视频讲解。

对奇异值分解的深度理解

1. 四个基本子空间的标准正交基 将 SVD 写成分块矩阵形式： $$ A = [U_r \quad U_{m-r}] \begin{bmatrix} \Sigma_r & 0 \ 0 & 0 \end{bmatrix} \begin{bmatrix} V_r^T \ V_{n-r}^T \end{bmatrix} $$ 这里找到了 $A$ 的四个基本子空间的一组标准正交基： * $U_r$：列空间的基 * $U_{m-r}$：左零空间的基 * $V_r$：行空间的基 * $V_{n-r}$：零空间的基

从几何映射上看： $$ A [V_r \quad V_{n-r}] = [U_r \quad U_{m-r}] \begin{bmatrix} \Sigma_r & 0 \ 0 & 0 \end{bmatrix} $$ * $A$ 将行空间映射到列空间（反过来就是伪逆的操作），将行空间的正交基转换为列空间的正交基。 * $A$ 将零空间映射至 $0$ 点（这一部分的信息丢失，无法恢复）。

2. 简化奇异值分解与秩一分解 只保留非零奇异值部分： $$ A = U_r \Sigma_r V_r^T = \sigma_1 u_1 v_1^T + \dots + \sigma_r u_r v_r^T $$ * $\Sigma_r$ 包含了 $A$ 的 $r$ 个奇异值（奇异值必须大于 0，0 不能作为奇异值）。 * 满足 $A v_i = \sigma_i u_i$，其中 $\sigma_i$ 为向量 $A v_i$ 的长度。 * 这也说明了：任意秩为 $r$ 的矩阵都可以表示为 $r$ 个秩为 1 的矩阵之和。

3. 几何意义：旋转与拉伸 从几何上理解，$A$ 对向量 $x$ 的作用 $Ax = U \Sigma V^T x$ 包含三个步骤：旋转 $\to$ 拉伸 $\to$ 旋转。

我们可以将分解重组为： $$ A = U \Sigma V^T = (UV^T)(V \Sigma V^T) = (Q)(S) $$ * $Q = UV^T$：正交矩阵，代表旋转（或反射）。 * $S = V \Sigma V^T$：对称矩阵，代表拉伸。

因为旋转不会改变向量的长度，所以 $Ax$ 的长度完全由 $S$ 决定： * 将 $x$ 拉到最长：$\sigma_1 |x|$ * 将 $x$ 拉到最短（非零）：$\sigma_r |x|$

这也引入了矩阵范数的概念： $$ |A| = \max_{x \neq 0} \frac{|Ax|}{|x|} = \sigma_1 $$

4. 伪逆与矩阵的逆 SVD 完善了基本子空间理论的最后一块拼图，解释了投影和逆的含义。 * 左逆：当 $Ax \neq 0$ 时（零空间为空，即 $A$ 列满秩，$n=r$），存在左逆。$(A^T A)^{-1} A^T A = I$。可以完全“救回来”。 * 右逆：当 $x^T A^T \neq 0$ 时（左零空间为空，即 $A$ 行满秩，$m=r$），存在右逆。$A A^T (A A^T)^{-1} = I$。从右边可以完全“救回来”。 * 伪逆：若零空间和左零空间均不为空，则 $A$ 作用到 $x$ 上之后，信息有丢失，不可能将 $x$ 完全恢复，只能找到最像 $x$ 的向量，即 $x$ 在行空间中的投影 $A^+ A x$。$A$ 和 $A^+$ 互为伪逆。* 当零空间、左零空间为空时，伪逆退化为左逆、右逆，最后退化为逆。* 公式：$A^+ = V \Sigma^+ U^T$

5. 对称矩阵 SVD 与特征值分解的区别 对于对称矩阵 $S$，特征向量相互正交： $$ S = Q \Lambda Q^{-1} = Q \Lambda Q^T $$ 此时特征值分解和奇异值分解形式雷同，但细节不同： * 特征值分解：$S = Q \Lambda Q^T$，要求左右两个矩阵互为转置，放宽了对角矩阵元素（特征值）的正负要求。 * 奇异值分解：$S = U \Sigma V^T$，要求中间对角阵元素（奇异值）大于 0，但允许两边矩阵不同。

对比： $$ \text{Eig: } \lambda_1 q_1 q_1^T + \dots \quad \text{vs} \quad \text{SVD: } \sigma_1 u_1 v_1^T + \dots $$ 如果 $Q=U$，当 $\sigma_r = -\lambda_r$ 时，$v_r = -q_r$，两者相差一个负号。

6. 应用：主成分分析 (PCA) 在 PCA 中，奇异值 $\sigma_i$ 代表数据在 $u_i$ 方向上的方差，代表了这个方向上的数据信息量。 * $u_1$ 求出了数据最集中的方向（第一主成分）。 * 这本质上也是垂直最小二乘法（Total Least Squares）的解。

例题与习题

基础题： * 6, 7：理解秩为 $r$ 的矩阵是 $r$ 个秩为 1 的矩阵之和。 * 14：利用 $y=Ax$ 可以很方便地得到椭圆的方程，且是经过旋转之后的椭圆。 * 21

重点习题解析：

15 & 16：正规方程与解的存在性 问题：证明对于任意 $A_{m \times n}$，$A^T A x = A^T b$ 一定有解。

证明逻辑： 1. 由之前的结论可知，$A$ 与 $A^T A$ 零空间相同，即 $N(A) = N(A^T A)$。 2. 这意味着 $A$ 与 $A^T A$ 行空间相同，即 $C(A^T) = C(A^T A)$。 3. 显然，向量 $A^T b$ 位于 $A$ 的行空间 $C(A^T)$ 中。 4. 因此，$A^T b$ 也一定位于 $C(A^T A)$ 中，即方程组一定有解。

推论： * 无论 $Ax=b$ 是否有解，$A^T A x = A^T b$ 一定有解。 * 解的情况：* 若 $A$ 列满秩（$A^T A$ 满秩）：唯一解。* 若 $A$ 列不满秩（$A$ 的零空间不为 0）：无数个解。其中最优的那一个（位于 $A$ 的行空间里，长度最短）为 $x = A^+ b$。

启发题： * 22：SVD 分解和特征值分解的另一种关系。

求证：$A$ 列满秩 $\iff A^T A$ 可逆

这里有四种方法可以证明：

方法 1：利用 SVD $A = U \Sigma V^T \implies A^T A = V \Sigma^T \Sigma V^T$。因为 $A$ 列满秩，所有奇异值 $\sigma_i > 0$，故 $\Sigma^T \Sigma$ 可逆，且 $V$ 可逆，所以 $A^T A$ 可逆。

方法 2：利用零空间 * 若 $Ax=0$，则 $x^T A^T A x = 0 \implies (Ax)^T (Ax) = 0 \implies |Ax|^2 = 0 \implies Ax=0$。 * 反之亦然。 * 因此 $N(A) = N(A^T A)$。 * $A$ 列满秩 $\implies N(A) = {0} \implies N(A^T A) = {0} \implies A^T A$ 满秩即可逆。

方法 3：利用二次型（正定性） 若 $A$ 列满秩，则对于任意 $x \neq 0$，有 $Ax \neq 0$。此时 $x^T (A^T A) x = (Ax)^T (Ax) = |Ax|^2 > 0$。说明 $A^T A$ 是正定矩阵，正定矩阵必定可逆。

方法 4：利用初等变换与合同矩阵 $A$ 列满秩，可以通过列初等变换将 $A$ 化为 $[I; F] E$（其中 $E$ 为可逆初等矩阵）。则： $$ A^T A = E^T [I \quad F^T] \begin{bmatrix} I \ F \end{bmatrix} E = E^T (I + F^T F) E $$ 这意味着 $A^T A$ 合同于 $(I + F^T F)$。因为 $I + F^T F$ 是正定矩阵（特征值 $\ge 1$），所以 $A^T A$ 也是正定矩阵，满秩可逆。

结论： $(A^T A)^{-1} A^T A = A^T A (A^T A)^{-1} = I$。 $A$ 列满秩有左逆，$A^T$ 行满秩有右逆。这里的左逆和右逆都是真逆，真能恢复到 $I$。

查看全文

http://www.jsqmd.com/news/470995/