1. 程式人生 > 實用技巧 >機器學習 之 作業3

機器學習 之 作業3

實際上就是在求樸素貝葉斯的引數估計而已。

X X X連續的情況
P ( X i ∣ Y i , θ ) = ∏ k = 1 K N ( Y i ∣ μ R , Σ R ) I { y i = k } P(X_i|Y_i,\theta)=\prod^K_{k=1}N(Y_i|\mu_R,\Sigma_R)^{I\{y_i=k\}} P(XiYi,θ)=k=1KN(YiμR,ΣR)I{yi=k}
僅僅是在說明是相互獨立的而已,下面也是在說相互獨立而已,這裡只是在體現相互獨立性。
在這裡插入圖片描述

什麼意思呢?實際上,期望就是期望,我們不是要求它特定值,而是藉助求它最大值的時候,求出 θ \theta

θ來。期望最重要的是它的式子,求 y y y的最大值(高斯分佈性質決定)就是直接的概率公式求最大值就可以了,求 x x x的最大值(代表它是最應該挑選出來的,是事實根據),它的概率公式是
X X X離散的情況
y i y_i yi更像什麼?實際上是分類,如果二分類的話則 P ( y i ) = ϕ y i ( 1 − ϕ ) 1 − y i P(y_i)=\phi^{y_i}(1-\phi)^{1-y_i} P(yi)=ϕyi(1ϕ)1yi( i ∈ { 0 , 1 } i\in\{0,1\} i{0,1}),這就是 y i y_i yi的描述公式。每個分類都有一個描述公式,這裡 y i y_i
yi
表示屬於某一類, x i x_i xi表示輸入值(一隻羊的特徵)。
P ( D ∣ θ ) = ∏ i = 1 n P ( x i , y i ∣ θ ) = ∏ i = 1 n P ( y i ) P ( x i ∣ y i ) = ∏ i = 1 n ( ϕ y i ( 1 − ϕ ) 1 − y i ) × ∏ j = 1 d ∏ k = 1 K ( ϕ k j x i j ( 1 − ϕ k j ) 1 − x i j ) I { y i = k } P(D|\theta)=\prod^n_{i=1}P(x_i,y_i|\theta)=\prod^n_{i=1}P(y_i)P(x_i|y_i)\\ =\prod^n_{i=1}(\phi^{y_i}(1-\phi)^{1-y_i})\times\prod^d_{j=1}\prod^K_{k=1}(\phi^{x_{ij}}_{kj}(1-\phi_{kj})^{1-x_{ij}})^{I\{y_i=k\}}
P(Dθ)=i=1nP(xi,yiθ)=i=1nP(yi)P(xiyi)=i=1n(ϕyi(1ϕ)1yi)×j=1dk=1K(ϕkjxij(1ϕkj)1xij)I{yi=k}

求出 ϕ k j x i j \phi^{x_{ij}}_{kj} ϕkjxij

P ( D ∣ θ ) P(D|\theta) P(Dθ)這個(資料,標籤)在當前條件下的概率值, θ \theta θ就是 ϕ \phi ϕ,之所以不見了 θ \theta θ是因為它變成了 ϕ \phi ϕ

我在求什麼呢?

P ( y ∣ x , θ ) P(y|x,\theta) P(yx,θ)才是最正常的,emmm
似然(likelihood)和概率(probability)
概率是給定 θ = θ 1 \theta=\theta_1 θ=θ1 X = x X=x X=x的可能性,就是給定引數後的正常公式啊。這時候肯定確定引數 θ \theta θ了。說算 X X X的概率分佈也不算是錯。
似然是給定樣本 X = x X=x X=x下引數 θ = θ 1 \theta=\theta_1 θ=θ1的可能性,
通常在概率統計學中 X \textbf{X} X代表的是隨機變數,而小寫形式 x x x通常代表其具體取值. 假定 X X X服從二項分佈(也可以是任何其他分佈), 則可以寫成 X ∼ B ( n , p ) X ∼ B ( n , p ) XB(n,p), 而該二項分佈情況下, 6次試驗下 x x x的取值可以是"010011",而 X X X表示其中的某一個。可以發現6次試驗中,"1"出現了三次,那麼這種情況下p取值為"1/2"是可能性最大的,即最接近 θ \theta θ的真實分佈。

似然函式可以看做是同一個函式形式下的不同視角,因為概率方程都是同一個。 X X X θ \theta θ相互轉換,但關鍵是, θ \theta θ是一個固定值, X X X是一個隨機變數。 X X X是樣本, θ \theta θ是最大似然值。

在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
概率與似然用的是同一個概率公式,不同之處在於概率直接算出最後結果,似然要對概率求導等於0後求出似然值。
因此,似然函式實際上是 L ( θ ∣ x ) L(\theta|x) L(θx),概率密度函式實際上是 f ( x ∣ θ ) f(x|\theta) f(xθ)

那麼 y y y是什麼呢?