常用矩陣微分公式

阿新 • • 發佈：2019-02-04

矩陣微分(Matrix Differential)也稱矩陣求導(Matrix Derivative)，在機器學習、影象處理、最優化等領域的公式推導過程中經常用到。本文將對各種形式下的矩陣微分進行詳細的推導。

1. 符號說明

d(y)/d(x) 是一個列向量，其中的元素 (i) 為 d(y_i)/d(x)
d(y)/d(x) 是一個列向量，其中的元素 (i) 為 d(y)/d(x_i)
d(y^T)/d(x) 是一個矩陣，其中的元素 (i,j) 為 d(y_j)/d(x_i)
d(Y)/d(x) 是一個矩陣，其中的元素 (i,j) 為 d(Y_i,j)/d(x)
d(y)/d(X) 是一個矩陣，其中的元素 (i,j) 為 d(y)/d(X

_i,j)

接下來的微分計算中，假定A, B, C是常矩陣與X無關，Y, Z與X相關。

2. 一次函式的微分(Linear Products)

首先介紹一個重要的性質（類似於函式的求導）: d(YZ)/d(x)=Y*d(Z)/d(x)+d(Y)/d(x)*Z，注意到分母中的x是標量(Scalar)。在微分中分母是向量的情況下，個人經驗是：若d(行向量)/d(列向量)或者d(列向量)/d(行向量)，則也適合這個公式，如下面的前兩個公式。

d(x^TA)/d(x) = A
推導過程：d(x^TA)/d(x) = A*d(x^T)/d(x)+x^T*d(A)/d(x) = A*I+0 = A。若A為向量a也適用。

d(Ax)/d(x^T) = A 推導過程：d(Ax)/d(x^T) = [d(x^TA^T)/d(x)]^T = (A^T)^T = A。
d(a^TXb)/d(X) = ab^T首先求出a^TXb = a^TX_:,1b₁ + a^TX_:,2b₂ + ... + a^TX_:,nb_n，這是一個實數，所以對應的X_i,j的係數構成的矩陣就為微分結果，易得ab^T。若a, b為矩陣A, B公式也適用。
d(a^TX^Tb)/d(X) = ba^T計算過程同上，若a, b為矩陣A, B公式也適用。

注意，有些書上有這些公式：d(xA)/d(x)=A; d(Ax)/d(x)=A^T。考慮到x為列向量，則Ax也為列向量，列向量對列向量的求導按照《矩陣論》中的公式，結果會是一個列向量而不是公式中的A

^T。這些特殊的情況就讓數學家去鑽研吧，應用研究很少遇到。

3. 二次函式的微分(Quadratic Products)

下面的討論主要針對分子為二次的情況，分母還是向量或者矩陣。分母為高階的情況較少，典型的例子有Hessian矩陣，在文章最後會介紹。

d(x^TAx)/d(x) = (A+A^T)x在SVM求對偶的過程中有這一步求導。用展開的方式可以很快求得。若A為對稱陣，則d(x^TAx)/d(x) = 2Ax。
d[(Ax+b)^TC(Dx+e)]/d(x) = A^TC(Dx+e) + D^TC^T(Ax+b) 這是該形式最為通用的公式。
d(a^TX^TXb)/d(X) = X(ab^T + ba^T)
- 特殊情況：d(a^TX^TXa)/d(X) = 2Xaa^T
d(a^TX^TCXb)/d(X) = C^TXab^T + CXba^T
- d(a^TX^TCXa)/d(X) = (C + C^T)Xaa^T
- d(a^TX^TCXa)/d(X)= 2CXaa^T，若C對稱。
d[(Xa+b)^TC(Xa+b)]/d(X) = (C+C^T)(Xa+b)a^T

4. 矩陣的跡的微分(Trace)

在矩陣的跡tr()中的矩陣必須為方陣。設有N階矩陣A，那麼矩陣的跡tr(A)就等於A的特徵值的總和，也為A矩陣的主對角線元素的總和，tr(AB)=tr(BA)。

d(tr(X))/d(X) = I
d(tr(X^k))/d(X) =^k(X^k-1)^T
d[tr(A^TXB^T)]/d(X) = d[tr(BX^TA)]/d(X) = AB
- d[tr(XA^T)]/d(X) = d[tr(A^TX)]/d(X) =d[tr(X^TA)]/d(X) = d[tr(AX^T)]/d(X) = A
d[tr(AXBX^T)]/d(X) = A^TXB^T + AXB
- d[tr(XAX^T)]/d(X) = X(A+A^T)
- d[tr(X^TAX)]/d(X) =(A+A^T)X
- d[tr(AX^TX)]/d(X) = X(A+A^T)
d[tr(AXBX)]/d(X) = A^TX^TB^T + B^TX^TA^T

5. 雅可比矩陣(Jacobian)

雅可比矩陣也可以看做是向量對向量的求導而得到的，如果y=f(x)，則對應的雅可比矩陣J=d(y)/d(x^T)。

$Jacobian$

6. 海森矩陣(Hessian matrix)

如果y=f(x)，則d[d(f)/d(x)]/d(x)是海森矩陣。在最優化中海森矩陣有諸多用途，如求最大值，最小值，鞍點等。

d²(Ax+b)^TC(Dx+e)/d(X²)= A^TCD + D^TC^TA

常用矩陣微分公式

常用矩陣微分公式

常用矩陣導數公式

常用矩陣向量求導公式

常用矩陣對向量求導公式

公式財務人員常用的計算公式—下篇，懷才當遇整理

HihoCoder 1480:矩陣填數 (楊氏矩陣 || 鉤子公式 + 篩逆元)

機器學習之常用矩陣/向量運算

常用矩陣名詞解釋

Excel常用電子表格公式大全【彙總篇】

常用矩陣計算C語言程式碼

『python工作』工作中常用 Excel 表公式

Windows中Latex應用排版、常用引用、公式、表格等

Tensorflow的常用矩陣生成

numpy常用矩陣計算函式總結

openCV中的常用矩陣運算

MIT18.06線性代數課程筆記19：矩陣行列式公式與代數餘子式

《神經網路的梯度推導與程式碼驗證》之數學基礎篇：矩陣微分與求導

機器學習中常用的矩陣向量求導公式

微積分：常用公式、微分方程、級數

矩陣求導、幾種重要的矩陣及常用的矩陣求導公式

常用矩陣微分公式

相關推薦