1. 程式人生 > >西瓜書 第2章 模型評估與選擇

西瓜書 第2章 模型評估與選擇

鳥哥的筆記總結的很好直接跳轉連結

1 什麼是p問題,np問題,np完全問題,np難問題

(https://zhidao.baidu.com/question/2267363653752475308.html)
P問題:就是在多項式時間內可以算出答案的問題,也就是說可以在一個比較短的時間內可以算出答案的問題。
NP問題:就是可以(多項式時間內)短時間內驗證一個答案正確性的問題。
NP完全問題:第一個條件,可以這麼說,就是你如果能解決A問題,則通過A問題可以解決B問題,那麼A問題比B問題複雜,當所有的問題都可以通過A問題的解決而解決的話,那麼A問題就可以稱為NP完全問題,第二個條件,就是A問題屬於NP問題。
NP難問題:這個就是NP完全問題中滿足第一個條件並且不滿足第二個條件的問題。

模型選擇

選擇泛化誤差最小的模型。需使用測試集來測試模型對新樣本的判別能力,以測試集上的測試誤差,來近似泛化誤差。

  • 留出法(hold-out)
    大約2/3~4/5的樣本用於訓練,剩餘的用於測試。
  • 交叉驗證法(cross validation)
    如 k折交叉驗證。k=5,10,20
    特別地當k = m(樣本數)時,稱為留一法。
  • 自助取樣法(bootstrapping)/可重複取樣/可放回取樣
    放回抽樣,0.368 用於測試,這樣的測試結果稱為“包外估計”。
    適用:資料集較小

模型調參

訓練集,測試集,驗證集比例怎麼確定? 8:1:1
調參有啥工具和經驗技巧?
自動調參:O2Osklearn工具(配置複雜)
手動調參:grid search(網格搜尋,暴力)、隨機搜素、啟發式搜尋等

查準率P,查全率R,F1


綜合P-R值的F1度量: 1 F 1 = 1 2

( 1 P + 1 R ) \frac{1}{F_1}=\frac{1}{2}\cdot \bigg({\frac{1}{P}}+{\frac{1}{R}}\bigg)
平衡點BEP:即P=R時的取值。誰大誰優秀!!

ROC 與 AUC

AUC(Area Under ROC Curve):ROC曲線下的面積。面積越大越好。