深度學習——數學與機器學習基礎
線性代數
- 標量:一個單獨的數
- 向量:一個向量是一列數
- 矩陣:一個矩陣是一個二維陣列
- 張量:一個數組中的元素分佈在若干維座標的規則網格中,稱之為張量。比如張量
A 中座標為(i,j,k) 的元素記作Ai,j,k 。在計算機視覺中,5張3通道的32× 32大小的影象可以用張量表示為(5,3,32,32)
矩陣的轉置、矩陣與向量相乘、兩個向量的點積(
單位矩陣、逆矩陣的概念:
對於下列線性方程組的求解:
可以通過以下步驟來求解:
如果逆矩陣
對於向量b的某些值,有可能不存在解,或者存在無限多個解。存在多於一個解但是少於無限多個解的情況不可能發生。
可以將A的列向量看作從原點出發的不同方向,確定有多少種方法可以到達向量b,這是,向量x中的每一個元素表示沿這個方法走多遠。
對於每一個向量都有解的充分必要條件是:該矩陣必須包含至少一組m個線性無關的向量。
但是當
到此關於線性方程組的討論結束!
範數的概念、對角矩陣(除了主對角線上含有非零元素,其它位置都是零)、對稱矩陣(
正交矩陣:如果
單位向量是具有單位範數的向量:
正交矩陣指行向量和列向量分別標準正交的方陣,即
特徵分解、特徵向量、特徵值:
不是每一個矩陣都可以分解成特徵值和特徵向量。在某些情況下,特徵分解存在,但是會涉及到複數,而非實數。
每個實對稱矩陣都可以分解成實特徵向量和實特徵值:
所有特徵值為正數的矩陣稱為正定(positive definite);所有特徵值都是非負數的矩陣被稱為半正定(positive semidefinite)。
奇異值分解:
還有另一種分解矩陣的方法,被稱為奇異值分解(singular value decomposition, SVD),將矩陣分解為奇異向量(singular vector)和奇異值(singular value)。通過奇異值分解,我們會得到一些與特徵分解相同型別的資訊。然而,奇異值分解有更廣泛的應用。每個實數矩陣都有一個奇異值分解,但不一定都有特徵分解。
主成分分析推導
概率和資訊理論
概率論使我們能夠提出不確定的宣告以及在不確定性存在的情況下進行推理,而資訊理論使我們能夠量化概率分佈中的不確定性總量。
隨機變數、概率分佈(概率質量函式,概率密度函式),邊緣概率、條件概率、條件概率鏈式法則。
獨立性、條件獨立性
期望、方差、協方差。
常用概率分佈:
Bernoulli分佈、高斯分佈、指數分佈和Laplace分佈
常用函式的有用性質:Logistic sigmoid函式,softplus函式,Relu函式。
Logistic sigmoid:
softplus:
Relu:
數值計算
上溢和下溢:當接近零的數被四捨五入為零時發生下溢。許多函式在其引數為零而不是一個很小的正數時才會表現出質的不同。當大量級的數被近似為
病態情況:條件數表徵函式相對於輸入的微小變化而變化的快慢程度。輸入被輕微擾動而迅速改變的函式對於科學計算來說可能是有問題的,因為輸入中的四捨五入誤差可能導致輸出的巨大變化。
基於梯度的優化:大多數深度學習演算法都涉及某種形式的優化。優化指的是改變
臨界點(駐點)、鞍點的概念;區域性極小點,區域性極大點,全域性最小點概念;偏導數,梯度是相對一個向量求導的導數: