机器学习中的线性代数总结

之前整理CS229和CS231作业的时候发现CNN和RNN的反向传播推导还是有些难度的，由此产生了整理机器学习中的线性代数的想法，整理内容包括（但不限于）向量微积分，奇异值分解，反向传播的推导等等，每个部分都会给出严格的理论推导，相应的代码以及其应用。这篇博客相当于一个索引，给出主要的结论，并且会经常更新，每个结论背后的理论推导都会专门写一篇博客进行补充。

基本概念

不同的资料上对于线性代数的记号略有不同，为了严谨起见，这部分给出一些基本概念以及记号的说明。

向量和矩阵的表示

矩阵

我们用大写字母（例如$A,B,C,\ldots$）表示矩阵，用带下标的小写字母$a_{ij},b_{ij},c_{ij},\ldots$表示其元素，例如

$A\triangleq [a_{ij}] =\left[ \begin{array}{cccc}{a_{11} } & {a_{12} } & {\cdots} & {a_{1 n} } \\ {a_{21} } & {a_{22} } & {\cdots} & {a_{2 n} } \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {a_{m 1} } & {a_{m 2} } & {\cdots} & {a_{m n} }\end{array}\right]\in \mathbb R^{m\times n}$

表示$m$行$n$列矩阵，$A\in \mathbb R^{m\times n}$表示矩阵的每个元素都是实数，即$a_{ij}\in \mathbb R$。

分块矩阵

分块矩阵是一个以矩阵作为元素的矩阵

$A\triangleq [A_{ij}] =\left[ \begin{array}{cccc}{A_{11} } & {A_{12} } & {\cdots} & {A_{1 n} } \\ {A_{21} } & {A_{22} } & {\cdots} & {A_{2 n} } \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {A_{m 1} } & {A_{m 2} } & {\cdots} & {A_{m n} }\end{array}\right]$

比较常用的形式为二阶分块

$A=\left[ \begin{matrix} A_{11}& A_{12} \\ A_{21}& A_{22} \end{matrix} \right]$

方阵

如果$m=n$，那么称$A$为方阵，只有对角线非零的方阵称为对角矩阵，即

${A}=\left[ \begin{array}{cccc} a_{11} & {0} & {\cdots} & {0} \\ {0} & a_{22} & {\cdots} & {0} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {0} & 0 & {\cdots} & {a_{n n} } \end{array}\right]\triangleq \text{diag}(a_{11},\ldots, a_{nn})$

单位阵

对角元全为$1$的对角矩阵称为单位阵，记作

$I_n =\text{diag}(1,\ldots, 1)$

向量

如果矩阵的某个维度为$1$，即形状为$m\times 1 $或$1\times n$，那么称其为向量，一般使用小写字母$a,b,c,\ldots $表示，由于列向量转置之后即为行向量，所以本文只考虑列向量，例如

${a}=\left[ \begin{array}{c} a_1\\ a_2 \\ {\vdots} \\ a_n \end{array}\right] \equiv \left[ \begin{array}{c} a_1& a_2 & \ldots & a_n\end{array}\right] ^{\top} \in \mathbb R^{n\times 1}$

为了叙述方便，一般将$ \mathbb R^{n\times 1}$简记为$\mathbb R^n$，所以上述记号变为

${a}=\left[ \begin{array}{c} a_1\\ a_2 \\ {\vdots} \\ a_n \end{array}\right] \equiv \left[ \begin{array}{c} a_1& a_2 & \ldots & a_n\end{array}\right] ^{\top} \in \mathbb R^{n}$

在不特别说明的地方，后文所说的向量均指列向量。

标准单位列向量

只有一个元素为$1$，其余元素都为$0$的$n$维列向量称为$n$维标准单位列向量，在维度明确的情况下，简记为标准单位列向量，即

$e_1 =\left[ \begin{array}{l}{1} \\ {0} \\ {0} \\ {\vdots} \\ {0}\end{array}\right], e_2 =\left[ \begin{array}{l}0 \\ 1 \\ {0} \\ {\vdots} \\ {0}\end{array}\right], \ldots, e_n =\left[ \begin{array}{l}0 \\ {0} \\ {0} \\ {\vdots} \\ 1\end{array}\right]$

其中$e_i\in \mathbb R^n$，不难看出我们有

$e_i^{\top} e_j=\begin{cases} 1 & i=j \\ 0 & 其他 \end{cases}$

考虑矩阵$A=[a_{ij}]\in \mathbb R^{n\times n}$，记$A(i,:)$为$A$的第$i$行，$A(:,j)$为$A$的第$j$列，即

$\begin{aligned} A(i,:)^{\top}&\triangleq \left[ \begin{array}{cccc}{a_{i1} } \\ {a_{i2} } \\ {\vdots} \\ {a_{i n} } \end{array}\right]\in \mathbb R^n\\ A(:,j)&\triangleq \left[ \begin{array}{cccc}{a_{1j} } \\ {a_{2j} } \\ {\vdots} \\ {a_{nj} } \end{array}\right]\in \mathbb R^n \end{aligned}$

利用矩阵乘法不难看出

$\begin{aligned} A(i,:)& =e_i^{\top} A\\ A(:,j)& =A e_j \end{aligned}$

全$1$向量

$n$维全$1$向量记为$1_n$，即

$1_n = \left[ \begin{matrix} 1\\ 1 \\ \vdots \\ 1 \end{matrix} \right] \in \mathbb R^n$

利用$1_m1_n^{\top }$可以构造出全$1$矩阵：

$1_m1_n^{\top}= \left[ \begin{array}{cccc} 1 & 1 & 1 & 1 \\ 1 & 1& 1 & 1 \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ 1 & 1 & {\cdots} & 1\end{array}\right]\in \mathbb R^{m\times n}$

全$1$向量还能对$A=[a_{ij}]\in \mathbb R^{m\times n}$按行，按列求和：

$\begin{aligned} (1_m^{\top} A)^{\top}&= \left[ \begin{matrix} \sum_{i=1}^m a_{i1} \\ \sum_{i=1}^m a_{i2}\\ {\ldots} \\ \sum_{i=1}^m a_{in} \end{matrix}\right]\in \mathbb R^n \\ A1_n^{\top}&= \left[ \begin{matrix} \sum_{j=1}^n a_{1j} \\ \sum_{j=1}^n a_{2j} \\ {\vdots} \\ \sum_{j=1}^n a_{mj} \end{matrix}\right] \in \mathbb R^m \end{aligned}$

Hadamard积

$m\times n$矩阵$A=[a_{ij}]$和$m\times n$矩阵$B=[b_{ij}]$的Hadamard积记作$A\odot B$，$A\odot B$仍然是一个$m\times n$矩阵，其中

$(A\odot B)_{ij}= a_{ij}b_{ij}$

Hadamard积在推导反向传播时可以对符号进行化简。

参考文献

张贤达. 矩阵分析与应用[M]. 清华大学出版社, 2013.
姚慕生. 高等代数学[M]. 复旦大学出版社, 2003.
Terence Parr and Jeremy Howard. The Matrix Calculus You Need For Deep Learning. ,July 3, 2018