《機器學習》周志華 讀書筆記2(原創)
第2章 模型評估與選擇
p24-p51 2017-2-24 Fri
Model selection模型選擇:選用哪種學習演算法、使用哪種引數配置
(理想的解決方案:對候選模型的泛化誤差進行評估,再選擇泛化誤差最小的那個模型)
(通過實驗來對學習器的泛化誤差進行評估並進而做出選擇)
Hold-out留出法:將資料集劃分為兩個互斥的集合,一個訓練集,一個測試集
(其劃分要儘可能保持資料分佈的一致性,避免因資料劃分過程引入額外的偏差而對最終結果產生影響)
Cross validation交叉驗證法(又稱k-fold cross validationk折交叉驗證)
:1. 將資料集劃分為k個大小相似的互斥子集(每個子集都儘可能保持數 據分佈的一致性)
2. 每次用k-1個子集的並集作為訓練集,餘下的那個子集作為測試集
(此方法評估結果的穩定性和保真性在很大程度上取決於k的取值)
(k常取10,即10折交叉驗證)
Bootstrapping自助法:給定包含m個樣本的資料集D,對它進行取樣產生資料集D’;
每次隨機從D中挑選一個樣本,將其拷貝放入D’;
再將該樣本放回初始資料集D中(該樣本在下次取樣時仍有可能被採到)
重複執行m次,得到包含m個樣本的D’
(D中有一部分樣本會在D’中多次出現,而另一部分樣本不出現)
(通過自助取樣,初始資料集D中約有36.8%的樣本未出現在D’中)
(可以D’用作訓練集)
Normalization規則化:將不同變化範圍的值對映到相同的固定範圍中,常見的是[0,1],此時亦稱歸一化。
機器學習中效能比較涉及的重要因素:
1. 我們希望比較泛化效能,而通過實驗評估方法獲得的是測試集上的效能,兩者的對比結果可能 未必相同
2. 用相同大小的測試集,若包含的測試樣例不同,測試結果會不同
3. 很多機器學習演算法本身有一定的隨機性,即便用相同的引數設定在同一個測試集上多次執行, 其結果也會有不同
偏差:度量了學習演算法的期望預測與真實結果的偏離程度,即刻畫了學習演算法本身的擬合能力
方差:度量了變動所導致的學習效能的變化,即刻畫了資料擾動所造成的影響
噪聲:表達了在當前任務學習上任何學習演算法所能達到的期望泛化誤差的下界,即刻畫了學習問題本身的難度
泛化效能是由學習演算法的能力、資料的充分性、以及學習任務本身的難度所共同決定。
給定學習任務,為取得好的泛化效能,需要:
1. 使偏差較小——能充分擬合數據
2. 使方差較小——使資料擾動產生的影響小
---------------------
原文:https://blog.csdn.net/angle_11111/article/details/56857459