矩陣求導（上）——標量對矩陣的求導

參考：https://zhuanlan.zhihu.com/p/24709748
這部分內容分兩篇整理，上篇講標量對矩陣的求導，下篇講矩陣對矩陣的求導。

本文使用小寫字母x表示標量，粗體小寫字母 $\boldsymbol{x}$ 表示（列）向量，大寫字母X表示矩陣。

定義：標量f對矩陣X的導數，定義為 $\partial$

f ∂ X = [ ∂ f

∂ X i j ]

\frac{\partial f}{\partial X} = \left[\frac{\partial f }{\partial X_{ij}}\right]

\frac{\partial f}{\partial X} = [\frac{\partial f}{\partial X _{i j}}]

，即f對X逐元素求導排成與X尺寸相同的矩陣。然而，這個定義在計算中並不好用，實用上的原因是在對較複雜的函式難以逐元素求導；哲理上的原因是逐元素求導破壞了整體性。

試想，為何要將f看做矩陣X而不是各元素 $X_{ij}$ 的函式呢？
答案是用矩陣運算更整潔。所以在求導時不宜拆開矩陣，而是要找一個從整體出發的演算法。

為此，我們來回顧，一元微積分中的導數（標量對標量的導數）與微分有聯絡： $df = f'(x)dx$ ；
多元微積分中的梯度（標量對向量的導數）也與微分有聯絡： $df = \sum_{i=1}^n \frac{\partial f}{\partial x_i}dx_i = \frac{\partial f}{\partial \boldsymbol{x}}^T d\boldsymbol{x}$ ，這裡第一個等號是全微分公式，第二個等號表達了梯度與微分的聯絡：全微分 $df是n\times1$ 梯度向量 $\frac{\partial f}{\partial \boldsymbol{x}}$ 與 $n\times1$ 微分向量 $d\boldsymbol{x}$ 的內積；

受此啟發，我們將矩陣導數與微分建立聯絡： $df = \sum_{i=1}^m \sum_{j=1}^n \frac{\partial f}{\partial X_{ij}}dX_{ij} = \text{tr}\left(\frac{\partial f}{\partial X}^T dX\right)$ 。其中 $tr$ 代表跡(trace)是方陣對角線元素之和，滿足性質：對尺寸相同的矩陣A,B， $\text{tr}(A^TB) = \sum_{i,j}A_{ij}B_{ij}，即\text{tr}(A^TB)$ 是矩陣A,B的內積。與梯度相似，這裡第一個等號是全微分公式，第二個等號表達了矩陣導數與微分的聯絡：全微分df是 $m\times n導數\frac{\partial f}{\partial X}與m\times n$ 微分矩陣dX的內積。

然後來建立運演算法則。回想遇到較複雜的一元函式如 $f = \log(2+\sin x)e^{\sqrt{x}}$ ，我們是如何求導的呢？通常不是從定義開始求極限，而是先建立了初等函式求導和四則運算、複合等法則，再來運用這些法則。故而，我們來創立常用的矩陣微分的運演算法則：

加減法： $d(X\pm Y) = dX \pm dY$ ；
矩陣乘法： $d(XY) = (dX)Y + X dY$ ；
轉置： $d(X^T) = (dX)^T$ ；
跡： $d\text{tr}(X) = \text{tr}(dX)$ 。
逆： $dX^{-1} = -X^{-1}dX X^{-1}$ 。此式可在 $XX^{-1}=I$ 兩側求微分來證明。
行列式： $d|X| = \text{tr}(X^{\#}dX)$ ，其中 $X^{\#}$ 表示X的伴隨矩陣，在X可逆時又可以寫作 $d|X|= |X|\text{tr}(X^{-1}dX)$ 。此式可用Laplace展開來證明，詳見張賢達《矩陣分析與應用》第279頁。
逐元素乘法：
d ( X

相關推薦

矩陣求導（上）——標量對矩陣的求導

參考：https://zhuanlan.zhihu.com/p/24709748 這部分內容分兩篇整理，上篇講標量對矩陣的求導，下篇講矩陣對矩陣的求導。本文使用小寫字母x表示標量，粗體小寫字母

矩陣論筆記（十）——廣義逆矩陣

當 A 滿秩時，方程 Ax=b 的解為 x=A−1b。但當 A 不滿秩，甚至方程 Ax=b 無解時，我們也希望用某種逆 A† 的形式表示方程的（近似）解 x=A†b。這便是廣義逆的作用。 0 投影變換與投影矩陣投影矩陣的求法：（1）M→M：P{L,

矩陣求導（下）——矩陣對矩陣的求導

參考：https://zhuanlan.zhihu.com/p/24863977 本篇使用小寫字母x表示標量，粗體小寫字母 x \boldsym

矩陣求導術（上）

法則復雜 image 技術新的 lan 深度學習 ice 真的是深度學習我認為最核心的被部分，是求導，更新的這個過程！這裏涉及的矩陣求導，我覺得很復雜，看了很多的方法，記憶法則，真的是越看越不懂！清華那本書，也是太龐大了。學習大佬這個矩陣求導術方法，矩陣求導，算

矩陣求導（一）

矩陣求導術（上）矩陣求導的技術，在統計學、控制論、機器學習等領域有廣泛的應用。鑑於我看過的一些資料或言之不詳、或繁亂無緒，本文來做個科普，分作兩篇，上篇講標量對矩陣的求導術，下篇講矩陣對矩陣的求導術。本文使用小寫字母x表示標量，粗體小寫字母x 表示向量，

java 學習筆記2 面向對象（上）

awr ges abs nal mage 有效面向對象 ima col 類和對象類是某一批對象的抽象，可以把類理解成某種概念。對象是一個具體存在的實體。類和對象是面向對象的核心。類定義的是多個實例的特征，類不是具體存在，實例才是具體存在。定義類(class)的語法：

（8）string對象上的操作

制表符忽略 nbsp ctrl+ sin 全部 2個多少 use //讀寫string對象的測試 #include <iostream> #include <string> using std::cin; using std::cout;

OO真經——關於面向對象的哲學體系及科學體系的探討（上）

中國古代輸出 .cn cat 新的 windows 提取關於 abstract 目錄 Catelog 目錄 Catelog 序言 Perface

JSP 內置對象（上）

技術分享 resp ecp form表單提交 ica 就是重新協議報錯 JSP 內置對象是 Web 容器創建的一組對象，不使用 new 關鍵字就可以直接使用的對象。如上一章中使用腳本實現打印九九乘法表中的out對象 <%-- 腳本：out對象是JSPWrite

三：python 對象類型詳解一：數字（上）

結果 dom 運行精度升級方法函數般的代碼一：python 的數字類型： a)整數和浮點數 b)復數 c)固定精度的十進制數 d)有理分數 e)集合 f)布爾類型 g)無窮的整數精度 h)各種數字內置函數和模塊二：各種數字類型的詳解　　1，數字常量：pyt

50-C++對象模型分析（上）

依次分析 sin bsp get 本質過程 ons 結構體回歸本質 class是一種特殊的struct： ? 在內存中class依舊可以看作變量的集合 ? class與struct遵循相同的內存對其規則 ? class中的成員函數與成員變量是分開存放的：（1）

Python面向對象編程（上）

sel 不能實例變量也不能 python面向對劃分過大包含解決 Python不僅支持面向過程編程，同時也支持面向對象編程。面向工程就是分析解決問題所需的步驟，然後用函數把這些步驟逐一實現，使用的時候再一個個調用函數就可以。面向對象則是把解決的問題按照一定

Java面向對象（上）

get 分配內存方法名對象分配一次類型在一起方法一定的一.面向對象的概念　　1.面向過程　　　　分析解決問題所需的步驟，然後用函數把這些步驟一一實現，使用的時候一個一個依次調用　　2.面向對象　　　　把解決的問題按照一定的規則劃分成多個獨立的對

如何對第一個Vue.js元件進行單元測試（上）

　　首先，為什麼要單元測試元件？　　單元測試是持續整合的關鍵。通過專注於小的、獨立的實體，確保單元測試始終按預期執行，使程式碼更加可靠，你可以放心地迭代你的專案而不必擔壞事兒。　　單元測試不僅限於指令碼。可以獨立測試的任何東西都是可單元測試的，只要你遵循一些好的做法。這些例項包括單一責任、可預測性和鬆

向量，標量對向量求導數

向量，標量對向量求導數 2016年06月14日 17:09:28 心雨心辰閱讀數：25654更多個人分類：數學理論 1.已知對誰求導數，就以誰（分母）作為主序，得出結果。比如這裡x是列向量，求Ax關於x求導數，那麼對x的每個分量分別求偏導數

PAT乙級真題及訓練集 PAT (Basic Level) Practise （中文）1010. 一元多項式求導

設計函式求一元多項式的導數。（注：xn（n為整數）的一階導數為n*xn-1。）輸入格式：以指數遞降方式輸入多項式非零項係數和指數（絕對值均為不超過1000的整數）。數字間以空格分隔。輸出格式：以與輸入相同的格式輸出導數多項式非零項的係數和指數。數字間以空格分隔，但結尾不能有多

【Math for ML】矩陣分解(Matrix Decompositions) （上）

mar 集合分解 begin 傳統 gin logs font 成對 I. 行列式(Determinants)和跡(Trace) 1. 行列式(Determinants) 為避免和絕對值符號混淆，本文一般使用$det(A)$來表示矩陣$A$的行列式。另外這裏的\

PAT (Basic Level) Practice （中文）1010 一元多項式求導（25 分）C語言

1010 一元多項式求導（25 分）設計函式求一元多項式的導數。（注：xn（n為整數）的一階導數為nxn−1。）輸入格式: 以指數遞降方式輸入多項式非零項係數和指數（絕對值均為不超過 1000 的整數）。數字間以空格分隔。輸出格式: 以與輸入相同的

也許你對 Fetch 瞭解得不是那麼多（上）

編者按：除創宇前端與作者部落格外，本文還在語雀釋出。編者還要按：作者也在掘金哦，歡迎關注：@GoDotDotDot 前言本篇主要講述 Fetch 的一些基本知識點以及我們在生產開發中怎麼去使用。為了能夠更好的瞭解 Fetch，我們希望你對以下知識點有所瞭解，如果有相關的開發經驗，

PAT (Basic Level) Practice （中文）1010 一元多項式求導（25 分）（C++）

1010 一元多項式求導（25 分）設計函式求一元多項式的導數。（注：x n （n為整數）的一階導數為nx n−1 。）輸入格式: 以指數遞降方式輸入多項式非零項係數和指數（絕對值均為不超過 1000 的整數）。數字間以空格分隔。輸出格式: 以

搜尋

基礎教學

Mysql入門 Sql入門 Android入門 Docker入門 Go語言入門 Ruby程式入門 Python入門 Python進階 Django入門 Python爬蟲入門

最近訪問

首頁
前端設計
程式設計
免費資源
實用技巧
資料庫
資訊
字典

Copyright © 2002-2020 程式人生 796T.COM All rights reserved.

矩陣求導（上）——標量對矩陣的求導

相關推薦