《西瓜書》第七章課後習題
7.1試使用極大似然法估算西瓜資料集3.0中前3個屬性的類條件概率。
極大似然就是進行概率假設,然後對假設的概率分佈引數進行估計
假設第一個屬性色澤概率分佈為:
P(色澤=青綠|好瓜)=
P(色澤=烏黑|好瓜)=
P(色澤=淺白|好瓜)=
似然函式:
結果與直觀觀察一致。
7.2 試證明:條件獨立性假設不成立時,樸素貝葉斯分類器仍有可能產生最優貝葉斯分類器。
條件不獨立的那些屬性都一致,或者放鬆一些,同一類的樣本的條件不獨立的屬性一致時,樸素貝葉斯分類器依舊可以是最優貝葉斯分類器。
7.3 試程式設計實現拉普拉斯修正的樸素貝葉斯分類器,並以西瓜資料集3.0為訓練集,對p.151“測1”樣本進行判別。
西瓜資料集3.0: github檔案地址
詳細程式碼:github程式碼地址
7.4 實踐中使用式(7.5)決定分類類別時,若資料的維數非常高,則概率連乘的結果通常會非常接近於0從而導致下溢。試述防止下溢的可能方案。
加log(),變連乘為連加。防止資料過大造成連加後無窮大,可以除屬性個數值。
7.5試證明:二分類任務中兩類資料滿足高斯分佈且方差相同時,線性判別分析產生貝葉斯最有分類器。
這道題關於線性判別公式如何得出的地方還沒有想太明白,但其實從概念上線性判別就是樣本離自己分類較近,兩個分類之間較遠就是最安全的,這和概率判別思想是一致的,都是增加安全裕量。
對於線性分類器得判別公式 求最大值也就是求
最小。
再回到貝葉斯分類器這邊,最優貝葉斯分類器也就是使每個樣本的後驗概率最大(條件風險最小)的分類器,對應線性判別,條件風險越小也就是樣本離其所對應的分類中心的距離儘可能小同時分類中心之間的距離儘可能大,也就是最小。兩式相同。
7.6
待補充。
7.7 給定 d 個二值屬性的二分類任務,假設對於任何先驗概率項的估算至少需要30個樣例,則在樸素貝葉斯分類器式(7.15)中估算先驗概率項需要60個樣例。試估計在AOED式中估算先驗概率項所需的樣例數。(分別考慮最好和最壞情況)
最好情況:
每一類的每個屬性都一致,則需要 個樣例
最壞情況:
需要 個樣例
7.8 考慮圖7.3,證明:在同父結構中,若的取值未知,則⊥不成立。在順序結構中,成立,但不成立。
①.已知時,