1. 程式人生 > >深度學習——數學與機器學習基礎

深度學習——數學與機器學習基礎

線性代數

  • 標量:一個單獨的數
  • 向量:一個向量是一列數
  • 矩陣:一個矩陣是一個二維陣列
  • 張量:一個數組中的元素分佈在若干維座標的規則網格中,稱之為張量。比如張量A中座標為(i,j,k)的元素記作Ai,j,k。在計算機視覺中,5張3通道的32×32大小的影象可以用張量表示為(5,3,32,32)

矩陣的轉置、矩陣與向量相乘、兩個向量的點積(xy
單位矩陣、逆矩陣的概念:A1A=In

對於下列線性方程組的求解:Ax=b,其中ARm×nbRmxRn,可以寫作:

這裡寫圖片描述

可以通過以下步驟來求解:

這裡寫圖片描述

如果逆矩陣A1存在,那麼方程組肯定對於每一個向量b恰好存在一個解。

對於向量b的某些值,有可能不存在解,或者存在無限多個解。存在多於一個解但是少於無限多個解的情況不可能發生。

可以將A的列向量看作從原點出發的不同方向,確定有多少種方法可以到達向量b,這是,向量x中的每一個元素表示沿這個方法走多遠。

Ax=ixiA:,i,這種操作稱為線性組合。一組向量的生成子空間是原始向量線性組合後所能抵達的點的集合。確定Ax=b是否有解相當於確定向量b 是否在A 列向量的生成子空間中。這個特殊的生成子空間被稱為A 的列空間(column space)或者A 的值域(range)。

A至少有m列,即nm

對於每一個向量都有解的充分必要條件是:該矩陣必須包含至少一組m個線性無關的向量。

但是當n>m時,會有無窮多個解,於是要使它只有一個解,只能是m=n,此時A

1存在。於是可以推得,要使得A的逆存在,必須為方陣,且所有列向量線性無關。此時它也叫非奇異矩陣,如果列向量線性相關的方陣,叫做奇異矩陣。

到此關於線性方程組的討論結束!

範數的概念、對角矩陣(除了主對角線上含有非零元素,其它位置都是零)、對稱矩陣(A=A

正交矩陣:如果xy=0,那麼向量x和y互相正交。如果這些向量不但互相正交,其2範數都為0,那麼稱它們標準正交

單位向量是具有單位範數的向量:x2=1

正交矩陣指行向量和列向量分別標準正交的方陣,即AA=AA=I,即A1=A,正交矩陣受到關注主要因為其求逆計算代價小。

特徵分解、特徵向量、特徵值:
Av=λv,A的特徵向量,是指這樣的一個非零向量:矩陣A作用於該向量,相當於對該向量的縮放。對v進行縮放,也是A的特徵向量,且特徵值不變。

不是每一個矩陣都可以分解成特徵值和特徵向量。在某些情況下,特徵分解存在,但是會涉及到複數,而非實數。

每個實對稱矩陣都可以分解成實特徵向量和實特徵值:A=QΛQ,其中QA 的特徵向量組成的正交矩陣,Λ是對角矩陣。

所有特徵值為正數的矩陣稱為正定(positive definite);所有特徵值都是非負數的矩陣被稱為半正定(positive semidefinite)。
A=Vdiag(λ)V1

奇異值分解
還有另一種分解矩陣的方法,被稱為奇異值分解(singular value decomposition, SVD),將矩陣分解為奇異向量(singular vector)和奇異值(singular value)。通過奇異值分解,我們會得到一些與特徵分解相同型別的資訊。然而,奇異值分解有更廣泛的應用。每個實數矩陣都有一個奇異值分解,但不一定都有特徵分解。

A=UDV,假設A 是一個m×n 的矩陣,那麼U 是一個m×m 的矩陣,D是一個m×n的矩陣,V 是一個n×n 矩陣。

主成分分析推導

概率和資訊理論

概率論使我們能夠提出不確定的宣告以及在不確定性存在的情況下進行推理,而資訊理論使我們能夠量化概率分佈中的不確定性總量。

隨機變數、概率分佈(概率質量函式,概率密度函式),邊緣概率、條件概率、條件概率鏈式法則。

獨立性、條件獨立性

期望、方差、協方差。

常用概率分佈:
Bernoulli分佈、高斯分佈、指數分佈和Laplace分佈

常用函式的有用性質:Logistic sigmoid函式,softplus函式,Relu函式。

這裡寫圖片描述

Logistic sigmoid: σ(x)=11+exp(x)

softplus: log(1+exp(x))

Relu: f(x)=max(0,x)

數值計算

上溢和下溢:當接近零的數被四捨五入為零時發生下溢。許多函式在其引數為零而不是一個很小的正數時才會表現出質的不同。當大量級的數被近似為 時發生上溢。進一步的運算通常會導致這些無限值變為非數字。softmax函式的分析。

病態情況:條件數表徵函式相對於輸入的微小變化而變化的快慢程度。輸入被輕微擾動而迅速改變的函式對於科學計算來說可能是有問題的,因為輸入中的四捨五入誤差可能導致輸出的巨大變化。

基於梯度的優化:大多數深度學習演算法都涉及某種形式的優化。優化指的是改變x以最小化或最大化某個函式f(x)的任務。目標函式也叫損失函式或代價函式。函式的導數f(x)代表f(x)在點x的斜率。f(x+ϵ)f(x)+ϵf(x)

臨界點(駐點)、鞍點的概念;區域性極小點,區域性極大點,全域性最小點概念;偏導數,梯度是相對一個向量求導的導數:f的導數是包含所有偏導數的向量,記作