假设 \(f = f(X)\),\(f\) 是标量,\(X\) 是矩阵,定义标量对矩阵的导数如下:
\[
\frac{\partial f}{\partial X} = \begin{bmatrix} \frac{\partial f}{\partial X_{ij}} \end{bmatrix}
\]
矩阵求导的核心是矩阵导数与微分的联系:
\[
\mathrm{d}f = tr(\frac{\partial f}{\partial X}^T \mathrm{d}X)
\]
可以看出,\(\mathrm{d}f\) 是导数 \(\frac{\partial f}{\partial X} (m \times n)\) 与微分矩阵 \(\mathrm{d}X (m \times n)\) 的内积。我们要做的事情就是对 \(f\) 求微分,进而转化成 \(\mathrm{d}f = tr(\frac{\partial f}{\partial X}^T \mathrm{d}X)\) 的形式,直接比较得出 \(\frac{\partial f}{\partial X}\)。
假设 \(f = f(Y), Y = g(X)\),则根据上述方法可先求出 f 对 Y 的微分形式:
\[
\mathrm{d}f = tr(\frac{\partial f}{\partial Y} ^T \mathrm{d}Y)
\]
进而利用 \(\mathrm{d}Y = \mathrm{d}g(X)\) 得到:
\[
\mathrm{d}f = tr(\frac{\partial f}{\partial Y} ^T \mathrm{d}g(X)) = tr(\frac{\partial f}{\partial X}^T \mathrm{d}X)
\]
原文:https://www.cnblogs.com/luyunan/p/12255373.html