機器學習 之 作業3
實際上就是在求樸素貝葉斯的引數估計而已。
X
X
X連續的情況
P
(
X
i
∣
Y
i
,
θ
)
=
∏
k
=
1
K
N
(
Y
i
∣
μ
R
,
Σ
R
)
I
{
y
i
=
k
}
P(X_i|Y_i,\theta)=\prod^K_{k=1}N(Y_i|\mu_R,\Sigma_R)^{I\{y_i=k\}}
P(Xi∣Yi,θ)=∏k=1KN(Yi∣μR,ΣR)I{yi=k}
僅僅是在說明是相互獨立的而已,下面也是在說相互獨立而已,這裡只是在體現相互獨立性。
什麼意思呢?實際上,期望就是期望,我們不是要求它特定值,而是藉助求它最大值的時候,求出
θ
\theta
X
X
X離散的情況
y
i
y_i
yi更像什麼?實際上是分類,如果二分類的話則
P
(
y
i
)
=
ϕ
y
i
(
1
−
ϕ
)
1
−
y
i
P(y_i)=\phi^{y_i}(1-\phi)^{1-y_i}
P(yi)=ϕyi(1−ϕ)1−yi(
i
∈
{
0
,
1
}
i\in\{0,1\}
i∈{0,1}),這就是
y
i
y_i
yi的描述公式。每個分類都有一個描述公式,這裡
y
i
y_i
P
(
D
∣
θ
)
=
∏
i
=
1
n
P
(
x
i
,
y
i
∣
θ
)
=
∏
i
=
1
n
P
(
y
i
)
P
(
x
i
∣
y
i
)
=
∏
i
=
1
n
(
ϕ
y
i
(
1
−
ϕ
)
1
−
y
i
)
×
∏
j
=
1
d
∏
k
=
1
K
(
ϕ
k
j
x
i
j
(
1
−
ϕ
k
j
)
1
−
x
i
j
)
I
{
y
i
=
k
}
P(D|\theta)=\prod^n_{i=1}P(x_i,y_i|\theta)=\prod^n_{i=1}P(y_i)P(x_i|y_i)\\ =\prod^n_{i=1}(\phi^{y_i}(1-\phi)^{1-y_i})\times\prod^d_{j=1}\prod^K_{k=1}(\phi^{x_{ij}}_{kj}(1-\phi_{kj})^{1-x_{ij}})^{I\{y_i=k\}}
求出
ϕ
k
j
x
i
j
\phi^{x_{ij}}_{kj}
ϕkjxij
那 P ( D ∣ θ ) P(D|\theta) P(D∣θ)這個(資料,標籤)在當前條件下的概率值, θ \theta θ就是 ϕ \phi ϕ,之所以不見了 θ \theta θ是因為它變成了 ϕ \phi ϕ。
我在求什麼呢?
P
(
y
∣
x
,
θ
)
P(y|x,\theta)
P(y∣x,θ)才是最正常的,emmm
似然(likelihood)和概率(probability)
概率是給定
θ
=
θ
1
\theta=\theta_1
θ=θ1下
X
=
x
X=x
X=x的可能性,就是給定引數後的正常公式啊。這時候肯定確定引數
θ
\theta
θ了。說算
X
X
X的概率分佈也不算是錯。
似然是給定樣本
X
=
x
X=x
X=x下引數
θ
=
θ
1
\theta=\theta_1
θ=θ1的可能性,
通常在概率統計學中
X
\textbf{X}
X代表的是隨機變數,而小寫形式
x
x
x通常代表其具體取值. 假定
X
X
X服從二項分佈(也可以是任何其他分佈), 則可以寫成
X
∼
B
(
n
,
p
)
X ∼ B ( n , p )
X∼B(n,p), 而該二項分佈情況下, 6次試驗下
x
x
x的取值可以是"010011",而
X
X
X表示其中的某一個。可以發現6次試驗中,"1"出現了三次,那麼這種情況下p取值為"1/2"是可能性最大的,即最接近
θ
\theta
θ的真實分佈。
似然函式可以看做是同一個函式形式下的不同視角,因為概率方程都是同一個。 X X X與 θ \theta θ相互轉換,但關鍵是, θ \theta θ是一個固定值, X X X是一個隨機變數。 X X X是樣本, θ \theta θ是最大似然值。
概率與似然用的是同一個概率公式,不同之處在於概率直接算出最後結果,似然要對概率求導等於0後求出似然值。
因此,似然函式實際上是
L
(
θ
∣
x
)
L(\theta|x)
L(θ∣x),概率密度函式實際上是
f
(
x
∣
θ
)
f(x|\theta)
f(x∣θ)
那麼 y y y是什麼呢?