超引數的選擇與交叉驗證

阿新 • • 發佈：2019-01-12

1. 超引數有哪些

　　與超引數對應的是引數。引數是可以在模型中通過BP（反向傳播）進行更新學習的引數，例如各種權值矩陣，偏移量等等。超引數是需要進行程式設計師自己選擇的引數，無法學習獲得。
　　常見的超引數有模型（SVM，Softmax，Multi-layer Neural Network,…)，迭代演算法（Adam,SGD,…)，學習率（learning rate)(不同的迭代演算法還有各種不同的超引數，如beta1,beta2等等，但常見的做法是使用預設值，不進行調參）,正則化方程的選擇(L0,L1,L2)，正則化係數，dropout的概率等等。

2. 確定調節範圍

　　超引數的種類多，調節範圍大，需要先進行簡單的測試確定調參範圍。

2.1. 模型

　　模型的選擇很大程度上取決於具體的實際問題，但必須通過幾項基本測試。
　　首先，模型必須可以正常執行，即程式碼編寫正確。可以通過第一個epoch的loss估計，即估算第一個epoch的loss，並與實際結果比較。注意此過程需要設定正則項係數為0，因為正則項引入的loss難以估算。
　　其次，模型必須可以對於小資料集過擬合，即得到loss接近於0，accuracy接近於1的模型。否則應該嘗試其他或者更復雜的模型。
　　最後，如果val_acc與acc相差很小，可能是因為模型複雜度不夠，需要嘗試更為複雜的模型。

2.2. 學習率

loss基本不變：學習率過低
loss震動明顯或者溢位：學習率過高
根據以上兩條原則，可以得到學習率的大致範圍。

2.3. 正則項係數

val_acc與acc相差較大：正則項係數過小
loss逐漸增大：正則項係數過大
根據以上兩條原則，可以得到正則項係數的大致範圍。

3. 交叉驗證

　　對於訓練集再次進行切分，得到訓練集以及驗證集。通過訓練集訓練得到的模型，在驗證集驗證，從而確定超引數。（選取在驗證集結果最好的超引數）
　　交叉驗證的具體例項詳見CS231n作業筆記1.7：基於特徵的影象分類之調參和CS231n作業筆記1.2: KNN的交叉驗證。

3.1. 先粗調，再細調

　　先通過數量少，間距大的粗調確定細調的大致範圍。然後在小範圍內部進行間距小，數量大的細調。

3.2. 嘗試在對數空間內進行調節

　　即在對數空間內部隨機生成測試引數，而不是在原空間生成，通常用於學習率以及正則項係數等的調節。出發點是該超引數的指數項對於模型的結果影響更顯著；而同階的資料之間即便原域相差較大，對於模型結果的影響反而不如不同階的資料差距大。

3.3. 隨機搜尋引數值，而不是格點搜尋

random layout

通過隨機搜尋，可以更好的發現趨勢。圖中所示的是通過隨機搜尋可以發現數據在某一維上的變化更加明顯，得到明顯的趨勢。

超引數的選擇與交叉驗證

1. 超引數有哪些

2. 確定調節範圍

2.1. 模型

2.2. 學習率

2.3. 正則項係數

3. 交叉驗證

3.1. 先粗調，再細調

3.2. 嘗試在對數空間內進行調節

3.3. 隨機搜尋引數值，而不是格點搜尋

超引數的選擇與交叉驗證

超引數的選擇、格點搜尋與交叉驗證

【模型評估與選擇】交叉驗證Cross-validation: evaluating estimator performance

機器學習：驗證數據集與交叉驗證

機器學習系列之偏差、方差與交叉驗證

文字分類 - 樣本不平衡的解決思路與交叉驗證CV的有效性

機器學習基礎：(Python)訓練集測試集分割與交叉驗證

超引數momentum與weight-decay的作用

模型選擇之交叉驗證

在Hyperopt框架下使用XGboost與交叉驗證

機器學習中資料訓練集，測試集劃分與交叉驗證的聯絡與區別（含程式）

python迴歸模型的評估與交叉驗證

Python機器學習庫sklearn網格搜尋與交叉驗證

機器學習之模型選擇（K折交叉驗證，超引數的選擇）

泛化能力、訓練集、測試集、K折交叉驗證、假設空間、欠擬合與過擬合、正則化（L1正則化、L2正則化）、超引數

Spark2.0機器學習系列之1：基於Pipeline、交叉驗證、ParamMap的模型選擇和超引數調優

sklearn中的交叉驗證與引數選擇

libsvm交叉驗證與網格搜尋（引數選擇）

機器學習實踐（八）—sklearn之交叉驗證與引數調優

Sklearn流水線交叉驗證以及超引數網格交叉評估基礎案例實戰-大資料ML樣本集案例實戰

超引數的選擇與交叉驗證

1. 超引數有哪些

2. 確定調節範圍

2.1. 模型

2.2. 學習率

2.3. 正則項係數

3. 交叉驗證

3.1. 先粗調，再細調

3.2. 嘗試在對數空間內進行調節

3.3. 隨機搜尋引數值，而不是格點搜尋

相關推薦