機器學習ML策略
1、為什麽是ML策略
例如:識別cat分類器的識別率是90%,怎麽進一步提高識別率呢?
想法:
(1)收集更多數據
(2)收集更多的多樣性訓練樣本
(3)使用梯度下降訓練更長時間
(4)嘗試Adam代替梯度下降
(5)嘗試更大的網絡
(6)嘗試更小的網絡
(7)嘗試dropout
(8)嘗試L2正則化
(9)修改網絡架構(激勵函數,隱含層單元數目)
2、正交化
正交化(正交性)是一種系統設計屬性,它可以確保修改算法的一個指令或者組成部分將不會對系統的其他組成部分產生或者傳播副作用。使得核查算法變得容易,減少測試和開發算法的時間。
一個好的機器學習算法按算法流程需要滿足(正交化):
(1)在訓練集中表現好(接近人類)。如果不好,可換大型網絡或者更換優化算法
(2)在驗證集中表現好。如果不好,可嘗試正則化或者使用大一點規模的訓練集
(3)在測試集中表現好。如果不好,可嘗試大一點的驗證集
(4)在真實世界中表現好。如果不好,測試集不正確或者代價函數有問題
3、單一數字評估指標
混淆矩陣:
True Positive(TP):正類預測為正類
True Negtive(TN):負類預測為負類
False Positive(FP):負類預測為正類(誤報)
False Negative(FN):正類預測為負類(漏報)
Positive | Negative | |
True | TP | TN |
False | FP | FN |
精確率(precision):針對預測結果
P = TP/(TP+FP)
準確率(accuracy):ACC = (TP+TN)/(TP+TN+FP+FN)
召回率(recall):針對我們原來的樣本而言的,它表示的是樣本中的正例有多少被預測正確的
R = TP/(TP+FN)
F1值:2/F1 = 1/P +1/R ---> F1 = 2TP/(2TP+FP+FN)
在信息檢索領域,精確率和召回率又被稱為查準率和查全率,
查準率=檢索出的相關信息量 / 檢索出的信息總量 查全率=檢索出的相關信息量 / 系統中的相關信息總量
機器學習ML策略