【Deep Learning讀書筆記】深度學習中的概率論

本文首發自公眾號：RAIS，期待你的關注。

前言

本系列文章為《Deep Learning》讀書筆記，可以參看原書一起閱讀，效果更佳。

概率論

機器學習中，往往需要大量處理不確定量，或者是隨機量，這與我們傳統所需要解決掉問題是大不一樣的，因此我們在機器學習中往往很難給出一個百分百的預測或者判斷，基於此種原因，較大的可能性往往就是所要達到的目標，概率論有用武之地了。

概念

離散型

概率質量函式：是一個數值，概率，\(0\leq P(x)\leq 1\)；
邊緣概率分佈：\(P(X=x)=\sum_{y} P(X=x, Y=y)\)
期望：\(EX=\sum_xP(x)f(x)\)

連續型

概率密度函式：是一個積分，\(F_X(x)=\int_{-\infty}^xf_X(t)dt\)；
邊緣概率分佈：\(p(x)=\int p(x,y)dy\)
期望：\(EX=\int P(x)f(x)dx\)

條件概率

\[ P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)} \]

相互獨立

\[ P(X=x,Y=y)=P(X=x)P(Y=y) \]

條件獨立

\[ P(X=x,Y=y|Z=z)=P(X=x|Z=z)P(Y=y|Z=z) \]

方差

\[ D(X)=Var(X)=E\{[X-E(X)]^2\} \]

標準差

\[ \sigma(X)=\sqrt{D(X)} \]

協方差

\[ Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\} \]

常用分佈

分佈	分佈律或概率密度	期望	方差
(0-1)分佈	\(P\{X=k\}=p^k(1-p)^{1-k},k=0,1\)	\(p\)	\(p(1-p)\)
二項分佈	\(P\{X=k\}=\left(\begin{matrix}n\\k\end{matrix}\right)p^k(1-p)^{n-k}\)	\(np\)	\(np(1-p)\)
均勻分佈	\(f(x)=\begin{cases}\frac{1}{b-1},\,\,\,\,\,a<x<b\\0,\,\,\,\,\,\,\,\,\,\,\,其他\end{cases}\)	\(\frac{a+b}{2}\)	\(\frac{(b-a)^2}{12}\)
幾何分佈	\(P\{X=k\}=(1-p)^{k-1}p\)	\(\frac{1}{p}\)	\(\frac{1-p}{p^2}\)
泊松分佈	\(P\{X=k\}=\frac{\lambda^ke^{-\lambda}}{k!}\)	\(\lambda\)	\(\lambda\)
指數分佈	\(f(x)=\begin{cases}\frac{1}{\theta}e^{-\frac{x}{\theta}},\,\,x>0\\0,\,\,\,\,\,\,\,\,\,\,\,\,其他\end{cases}\)	\(\theta\)	\(\theta^2\)
正態分佈	\(f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)	\(\mu\)	\(\sigma^2\)

這裡需要特別說一下正態分佈，也叫高斯分佈。當我們先驗知識不足而不知道該選擇什麼樣的分佈時，正態分佈是比較好的預設分佈：第一，由中心極限定理知道，許多隨機變數在大量重複試驗時都會近似服從正態分佈；第二，在具有相同方差的所有可能分佈中，正態分佈在實數上具有最大的不確定性，因此我們認為正態分佈是對模型加入先驗知識最少的分佈。

以上這些是大學概率論中就已經介紹過的了，下面這些是大學較少接觸的，但是在機器學習的領域是很有用的。

範疇分佈（Multinoulli 分佈）

範疇分佈是指在具有 k 個不同狀態的單個離散型隨機變數上的分佈。什麼意思呢？我們對比來說這個問題：

分佈	英文名	試驗次數	結果可能數	例子
伯努利分佈	Bernoulli distribution	1	2	扔一次硬幣，正面向上概率
二項分佈	Binomial distribution	多次	2	扔多次硬幣，正面向上次數
範疇分佈	Multinoulli distribution	1	多個	扔一次骰子，3點向上概率
多項式分佈	Multinmial distribution	多次	多個	扔3次骰子，分別為1，2，3點

Laplace 分佈

拉普拉斯分佈。與指數分佈可以對比著來看，看圖：

Dirac delta 函式

狄拉克δ函式或簡稱 δ函式，定義是在除 0 外其他點都為0，積分為 1 的函式。原點處無限高無限細，總面積為 1。

經驗分佈

是統計學中一種方法，簡要概括為：用樣本估計總體，總體是未知的，我們拿到了一些樣本，用這些樣本去估計總體。不懂可以檢視：這裡

\[ F_n(x)=\begin{cases}0,\,\,\,\,\,\,x<x_1\\\frac{k}{n},\,\,\,\,\,\,x_k\leq x<x_{k+1},k=1,2,...,n-1\\1,\,\,\,\,\,\,x_n\leq x\end{cases} \]

高斯混合模型

混合分佈的定義為將一些簡單的已有的概率分佈來定義新的概率分佈。其中非常強大且常見的混合模型是高斯混合模型。它的混合的元件是高斯分佈（正態分佈）。這個話題展開來說問題太多了，不適合在本處展開，但是要記住這個問題非常重要。

常用函式有用性質

logistic sigmoid 函式

\[ \sigma(x)=\frac{1}{1+e^{-x}}=\frac{e^x}{e^x+1} \]

邏輯迴歸函式。logistic 函式或者 sigmoid 函式對應的影象是 sigmoid 曲線，是一條 S 形曲線。值域：(0, 1)，從這裡是不是就可以理解為什麼我們之前的電影評論是好是壞二分類問題的最後一層啟用函式用 sigmoid 了。

softplus 函式

\[ \zeta(x)=ln(1+e^x) \]

值域是 0 到正無窮。它的作用是用來產生正態分佈的引數，在處理 sigmoid 函式的表示式時，也會出現。

貝葉斯規則

\[ P(x|y)=\frac{P(x)P(y|x)}{P(y)} \]

總結

如上這些內容是《Deep Learning》中涉及到的概率論相關的知識，內容有些分散，但是要記住，日後發現弄不懂的問題可以回來檢視。這一篇就到這裡。

本文首發自公眾號：RAIS，期待你的關注。