1. 程式人生 > >深度學習-概率論與資訊理論基礎

深度學習-概率論與資訊理論基礎

來自《深度學習》的配套資料!!!詳情可以看書上的知識或是看相關的教材
非同步社群:深度學習

概率與資訊理論

  概率論是用來描述不確定性的數學工具,很多機器學習算都是通過描述樣本的概率相關資訊來推斷或構建模型;資訊理論最初是研究如何量化一個訊號中包含資訊的多少,在機器學習中通常利用資訊理論的一些概念和結論描述不同概率分佈之間的關係。

1. 基本概念

  • 隨機變數: 可以隨機取不同值的變數,在機器學習演算法中,每個樣本的特徵取值,標籤值都可以看作是一個隨機變數,包括離散型隨機變數和連續型隨機變數。

  • 概率分佈: 表示隨機變數在每一個可能取到狀態下的可能性大小,對於離散型的概率分佈,稱為概率質量函式(Probability Mass Function, PMF),對於連續性的變數,其概率分佈叫做概率密度函式(Probability Density Function, PDF)。

  • 聯合概率分佈: 兩個或兩個以上隨機隨機變數聯合地概率分佈情況。

  • 邊緣概率: 在知道聯合概率分佈後,其中某幾個變數子集的概率分佈被稱為邊緣概率分佈。

  • 條件概率: 在給定某個事件後,其他事件發生的概率,例如在已知今天多雲的條件下下雨的概率就是條件概率有,在隨機變數X=xX=x的條件下Y=yY=y的條件概率為P(Y=yX=x)=P(Y=y,X=x)P(X=x)P(Y=y \| X=x) = \frac{P(Y=y,X=x)}{P(X=x)}

  • 相互獨立: 如果xX,yY,P(X=x,Y=y)=P(X=x)P

    (Y=y)\forall x \in X, y \in Y, P(X=x,Y=y) = P(X=x)P(Y=y),那麼就稱隨機變數X和Y是相互獨立的。

  • 條件獨立: 如果xX,yY,zZ,P(X=x,Y=yZ=z)=P(X=xZ=z)P(Y=yZ=z)\forall x \in X, y \in Y, z \in Z, P(X=x,Y=y \| Z=z) = P(X=x \| Z=z)P(Y=y \| Z=z),那麼就稱隨機變數X和Y是關於Z相互獨立的。

  • 貝葉斯準則: 在已知P(yx)P(y \| x)P(x)P(x)的情況下,P(xy)P(x)P(yx)P(y)P(x \| y)=\frac{P(x)P(y \| x)}{P(y)},貝葉斯準則經常被用在已知引數的先驗分佈情況下求後驗分佈。

  • 期望: 函式f(x)f(x)在某個分佈P(x)P(x)下的平均表現情況,記為ExP[f(x)]=p(x)f(x)dxE_{x \sim P}[f(x)]=\int{p(x)f(x)dx}

  • 方差: 函式f(x)f(x)在某個分不下表現的差異性,記為Var(f(x)=E[(f(x)E[f(x)])2]Var(f(x)=E[(f(x)-E[f(x)])^2]

  • 協方差: 兩個變數之間線性相關的強度,記為Cov(f(x),g(x))=E[(f(x)E[f(x)])(g(x)E(g(x)))]Cov(f(x),g(x))= E[(f(x)-E[f(x)])(g(x)-E(g(x)))]

  • 資訊熵: 描述某個概率分佈中不確定性的度量,記為H(x)=ExP[logP(x)]H(x)= -E_{x \sim P}[\log P(x)]

  • 交叉熵: 描述兩個概率分佈之間相似度的一個指標,在機器學習中經常使用交叉熵作為分類任務的損失函式,記為H(P,Q)=ExP[logQ(x)]H(P,Q)=-E_{x \sim P}[\log Q(x)]

2. 常用概率分佈

  • 伯努利分佈(Bernoulli distribution): 單個二值型變數的分佈,例如P(x=1)=p,P(x=0)=1pP(x=1)=p,P(x=0)=1-p

  • Multinoulli分佈: 包含k個取值的離散分佈,是伯努利分佈的擴充套件。

  • 高斯分佈/正態分佈(Normal/Gaussian distribution): 自然狀態下最常見的分佈,概率密度函式為N(x;μ,σ2)=12πσ2exp(12σ2(xμ)2)N(x;\mu,\sigma^2)= \sqrt{\frac{1}{2\pi \sigma^2}} \exp \left ( -\frac{1}{2\sigma^2} (x-\mu)^2 \right),形狀如下圖:
    在這裡插入圖片描述

  • 拉普拉斯分佈(Laplace distribution):有著與高斯分佈很相近的形式,概率密度函式為Laplace(x;μ,γ)=12γexp(xμγ)\text{Laplace}(x; \mu, \gamma) = \frac{1}{2\gamma} \exp \left( -\frac{\| x-\mu \|}{\gamma} \right)$,形狀如下圖:

在這裡插入圖片描述

3. 一些常用函式

  • Logistic sigmoid函式(很重要的一個函式

    • σ(x)=11+exp(x)\sigma(x) = \frac{1}{1+\exp(-x)}

    • 函式影象

      在這裡插入圖片描述

    • logistic函式有許多重要的性質,通常被用來對數值進行平滑,下面是它的部分性質

      在這裡插入圖片描述

  • 線性整流函式(Rectified Linear Unit, ReLU)

    • ReLU(x)=max(0,x)ReLU(x) = max(0,x)
    • 目前神經網路中最常用的一種非線性啟用函式
  • Softplus函式

    • ζ(x)=log(1+exp(x))\zeta(x) = \log(1+\exp(x))
    • softplus函式可以看作是max(0,x)max(0,x)的一個平滑,他與ReLU的函式影象如下

      在這裡插入圖片描述
    • 它有如下性質

      在這裡插入圖片描述

4.結構化概率模型

  • 概率圖模型: 通過圖的概念來表示隨機變數之間的概率依賴關係,下圖即為一個關於變數a,b,c,d,ea,b,c,d,e之間的有向圖模型,通過該圖可以計算p(a,b,c,d,e)=p(a)p(ba)p(ca,b)p(db)p(ec)p(a,b,c,d,e)=p(a)p(b \| a)p(c \| a,b)p(d \| b)p(e \| c)

在這裡插入圖片描述