西瓜書 第2章 模型評估與選擇
阿新 • • 發佈:2019-01-10
1 什麼是p問題,np問題,np完全問題,np難問題
(https://zhidao.baidu.com/question/2267363653752475308.html)
P問題:就是在多項式時間內可以算出答案的問題,也就是說可以在一個比較短的時間內可以算出答案的問題。
NP問題:就是可以(多項式時間內)短時間內驗證一個答案正確性的問題。
NP完全問題:第一個條件,可以這麼說,就是你如果能解決A問題,則通過A問題可以解決B問題,那麼A問題比B問題複雜,當所有的問題都可以通過A問題的解決而解決的話,那麼A問題就可以稱為NP完全問題,第二個條件,就是A問題屬於NP問題。
NP難問題:這個就是NP完全問題中滿足第一個條件並且不滿足第二個條件的問題。
模型選擇
選擇泛化誤差最小的模型。需使用測試集來測試模型對新樣本的判別能力,以測試集上的測試誤差,來近似泛化誤差。
- 留出法(hold-out)
大約2/3~4/5的樣本用於訓練,剩餘的用於測試。 - 交叉驗證法(cross validation)
如 k折交叉驗證。k=5,10,20
特別地當k = m(樣本數)時,稱為留一法。 - 自助取樣法(bootstrapping)/可重複取樣/可放回取樣
放回抽樣,0.368 用於測試,這樣的測試結果稱為“包外估計”。
適用:資料集較小
模型調參
訓練集,測試集,驗證集比例怎麼確定? 8:1:1
調參有啥工具和經驗技巧?
自動調參:O2Osklearn工具(配置複雜)
手動調參:grid search(網格搜尋,暴力)、隨機搜素、啟發式搜尋等
查準率P,查全率R,F1
…
綜合P-R值的F1度量:
平衡點BEP:即P=R時的取值。誰大誰優秀!!
ROC 與 AUC
AUC(Area Under ROC Curve):ROC曲線下的面積。面積越大越好。