机器学习线性代数--(7)逆矩阵、列空间、秩、零空间与非方阵
从几何视角理解线性变换的深层结构
在前几讲中,我们学会了用矩阵描述线性变换,并用行列式测量变换对面积的缩放。现在,我们将探索一些更深刻的问题:一个变换能否被“撤销”?变换后的空间是什么样的?哪些向量被压缩到了原点?不同维度的空间之间如何变换?这些问题将引向线性代数的核心概念——逆矩阵、列空间、秩、零空间,以及非方阵。
7.1 逆矩阵:变换的“撤销”
假设有一个线性变换A AA,它将空间中的向量v ⃗ \vec{v}v映射到w ⃗ \vec{w}w,即w ⃗ = A v ⃗ \vec{w} = A\vec{v}w=Av。如果我们想“撤销”这个变换,找到某个变换B BB,使得B w ⃗ = v ⃗ B\vec{w} = \vec{v}Bw=v,那么B BB就是A AA的逆矩阵,记作A − 1 A^{-1}A−1。
几何意义
逆矩阵对应于原变换的反向操作。例如,如果A AA是逆时针旋转90°,那么A − 1 A^{-1}A−1就是顺时针旋转90°;如果A AA将x方向拉伸2倍,那么A − 1 A^{-1}A−1就将x方向压缩为1/2。
存在条件:行列式不为零
逆矩阵存在的前提是变换后空间没有被压缩。如果行列式det ( A ) = 0 \det(A) = 0det(A)=0,意味着变换将面积(或体积)压缩为零,即降维了(比如平面被压缩成直线)。此时,无法从输出唯一地找回输入,因为多个输入可能映射到同一个输出——变换不可逆。因此:
矩阵可逆 ⟺ det ( A ) ≠ 0 \text{矩阵可逆} \iff \det(A) \neq 0矩阵可逆⟺det(A)=0与线性方程组的关系
逆矩阵直接给出线性方程组A x ⃗ = v ⃗ A\vec{x} = \vec{v}Ax=v的解:x ⃗ = A − 1 v ⃗ \vec{x} = A^{-1}\vec{v}x=A−1v。当A AA可逆时,解存在且唯一。
二阶逆矩阵公式
对于矩阵A = [ a c b d ] A=\begin{bmatrix}a & c \\ b & d\end{bmatrix}A=[abcd],当其行列式d e t ( A ) ≠ 0 det(A) \neq 0det(A)=0时是可逆的,则其逆矩阵A − 1 A^{-1}A−1的计算公式为:
A − 1 = 1 a d − b c [ d − c − b a ] ⟺ A × A − 1 = [ 1 0 0 1 ] A^{-1} = \frac{1}{ad-bc} \begin{bmatrix}d & -c \\ -b & a\end{bmatrix} \iff A\times{A^{-1}}=\begin{bmatrix}1 & 0 \\ 0 & 1\end{bmatrix}A−1=ad−bc1[d−b−ca]⟺A×A−1=[1001]
口诀:主对角线交换,副对角线变号,再除以行列式
7.2 列空间:变换后的“像”
矩阵的列是变换后的基向量。这些列向量张成的空间,就是所有可能输出向量的集合,称为列空间(或像)。
几何视角
对于一个2 × 2 2\times22×2矩阵,如果两列不共线,它们张成整个二维平面,列空间就是整个R 2 \mathbb{R}^2R2。
如果两列共线,它们张成一条直线,列空间就是这条直线(一维)。
如果两列都是零向量,列空间就是原点(零维)。
列空间的意义
列空间告诉我们:这个变换能将输入空间映射到输出空间的哪些地方?它是所有可能的输出向量的集合。例如,如果一个变换的列空间是二维平面中的一条直线,那么无论输入什么,输出都只会落在这条直线上——变换压缩了维度。
7.3 秩:列空间的维度
秩就是列空间的维度。它衡量了变换后空间的“大小”,或者说变换保留了多少维度的信息。
- 满秩:如果秩等于输入空间的维度(例如2 × 2 2\times22×2矩阵秩为2),则变换是满射到输出空间的某个子空间,且没有压缩维度(行列式非零)。此时,列空间就是整个输出空间(如果输出空间维度等于输入维度)或一个同维子空间。
- 降秩:如果秩小于输入空间的维度,则变换压缩了空间,信息丢失。例如秩为1时,所有输出都落在一条直线上。
**秩的直观理解:**你可以把秩想象成变换后“有效”的维度数。它等于矩阵线性无关的列数。
7.4 零空间(核):被压缩到原点的向量
变换中,有些向量可能会被映射到零向量。所有满足A v ⃗ = 0 ⃗ A\vec{v} = \vec{0}Av=0的向量v ⃗ \vec{v}v构成的集合,称为零空间(或核)。
几何意义
零空间反映了变换的“压缩”程度。如果零空间只包含零向量(即只有零向量被映射到零),那么变换是单射(一对一的),没有信息丢失。如果零空间包含非零向量,则存在不同的向量被映射到同一个输出,变换不可逆。
与秩的关系
有一个重要的定理(秩-零化度定理):
秩 + 零空间维度 = 输入空间维度 \text{秩} + \text{零空间维度} = \text{输入空间维度}秩+零空间维度=输入空间维度
例如,对于一个2 × 2 2\times22×2矩阵,如果秩为1,那么零空间的维度就是1(一条直线上的所有向量都被压缩到原点)。例子
考虑一个将平面投影到x轴的变换:[ 1 0 0 0 ] \begin{bmatrix}1&0\\0&0\end{bmatrix}[1000]。它的列空间是x轴(秩1),零空间是y轴(所有形如[ 0 , y ] [0, y][0,y]的向量都被映射到原点)。
7.5 非方阵:不同维度之间的变换
到目前为止,我们讨论的都是方阵(输入和输出维度相同)。但线性变换也可以在不同维度的空间之间进行,比如从二维到三维,或从三维到二维。这些变换由非方阵表示。
从二维到三维:3 × 2 3\times23×2矩阵
一个3 × 2 3\times23×2矩阵有两列(因为输入是二维),每列是一个三维向量。它的几何意义是:将二维平面上的基向量i ^ , j ^ \hat{i}, \hat{j}i^,j^映射到三维空间中的两个向量,从而把整个二维平面“嵌入”到三维空间中的一个平面(或直线,如果两列共线)。输出空间是三维,但列空间最多是二维(因为只有两个基向量)。所以列空间是三维空间中的一个过原点的平面(或直线)。
例子:
[ 1 0 0 1 0 0 ] \begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{bmatrix}100010
这个变换将二维平面映射到三维空间的x y xyxy-平面(z=0),即保持前两维不变,第三维为0。列空间就是x y xyxy-平面(二维),秩为2。从三维到二维:2 × 3 2\times32×3矩阵
一个2 × 3 2\times32×3矩阵有三列(输入是三维),每列是一个二维向量。它将三维空间中的基向量i ^ , j ^ , k ^ \hat{i}, \hat{j}, \hat{k}i^,j^,k^映射到二维平面上的三个向量。由于输入是三维,但输出只有二维,所以一定会压缩维度(除非三个基向量共面且张成二维空间,但无论如何最多输出二维)。列空间是二维空间中的一个子空间(可能是整个平面、一条直线或原点)。
例子:
[ 1 0 0 0 1 0 ] \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \end{bmatrix}[100100]
这个变换将三维向量( x , y , z ) (x,y,z)(x,y,z)映射为( x , y ) (x,y)(x,y),即忽略z坐标。列空间是整个二维平面(因为前两列张成整个R 2 \mathbb{R}^2R2),秩为2。零空间是z轴(所有形如( 0 , 0 , z ) (0,0,z)(0,0,z)的向量被映射到零),维度为1。非方阵的秩与零空间
对于m × n m\times nm×n矩阵(n nn维输入,m mm维输出):
- 秩 ≤min ( m , n ) \min(m, n)min(m,n)。
- 零空间维度 =n − 秩 n - \text{秩}n−秩(秩-零化度定理仍然成立)。
非方阵没有行列式(因为行列式只定义于方阵),但逆矩阵的概念通常不直接适用,除非考虑伪逆。
7.6 总结与联系
这些概念共同描绘了线性变换的完整画像:
- 逆矩阵:变换的撤销操作,要求行列式非零(即满秩方阵)。
- 列空间:所有可能的输出集合,由矩阵的列张成,其维度即秩。
- 秩:变换后空间的维度,衡量信息保留的程度。
- 零空间:所有被映射到零的向量,反映信息丢失的量(秩-零化度定理)。
- 非方阵:不同维度之间的映射,列空间是输出空间中的子空间,零空间仍存在。
把它们结合起来,你可以理解任意线性变换的内部结构:变换将输入空间划分为两部分——一部分(零空间)被压缩到零,另一部分(行空间,未详细讲)一一对应地映射到列空间。这正是线性代数基本定理的核心思想。
希望这个讲解能帮你建立起这些概念的几何直觉。当你面对一个矩阵时,试着想象它的列向量,思考它们张成的空间(列空间),以及哪些向量会被映射到原点(零空间)——这会让抽象的概念变得鲜活起来。
上一章机器学习线性代数–(6)行列式:测量变换对空间的缩放
