Advice for Applying ML

本節內容：機器學習系統設計的過程中，很可能會出現訓練的模型預測誤差較大的情況。選用最正確、有效的方法來改進演算法是機器學習成功的關鍵，它可以幫我們節省大量時間。本節就是關於如何高效訓練模型，把時間用在刀刃上。

相關機器學習概念：
1. 訓練集(training set)、交叉驗證集(cross validation set)、測試集(test set)
2. 模型選擇(model selection)
3. 學習曲線(learning curves)

1. Evaluating a Learning Algorithm

1.1 Evaluating a hypothesis

評估假設函式擬合效果：
- 特殊方法：畫圖，觀察圖形趨勢
- 標準方法：
Step1: 隨機選擇資料集的70%作為訓練集(training set)，30%作為測試集(test set)
Step2: 用訓練集訓練引數 $θ$
Step3: 用測試集計算測試誤差 $J_{t e s t} (θ)$

對於迴歸問題，

J_{t e s t} (θ) = \frac{1}{2 m_{t e s t}} \sum_{i = 1}^{m_{t e s t}} (h_{θ} (x_{t e s t}^{(i)}) - y_{t e s t}^{(i)}))^{2}

對於分類問題，如邏輯迴歸，有

J_{t e s t} (θ) = - \frac{1}{m_{t e s t}} \sum_{i = 1}^{m_{t e s t}} [y_{t e s t}^{(i)} l o g (h_{θ} (x_{t e s t}^{(i)})) + (1 - y_{t e s t}^{(i)}) l o g (1 - h_{θ} (x_{t e s t}^{(i)}))]

分類問題的測試誤差還有另一種更好理解的表達方式，也被稱作0/1錯分率(misclassification error)

J_{t e s t} (θ) = \frac{1}{m_{t e s t}} \sum_{i = 1}^{m_{t e s t}} e r r (h_{θ} (x_{t e s t}), y_{t e s t})

其中

\begin{aligned} e r r (h_{θ} (x), y) = {\begin{cases} 1 i f h_{θ} (x) \geq 0.5, y = 0 o r h_{θ} (x) ＜ 0.5, y = 1 \\ 0 o t h e r w i s e . \end{cases} \end{aligned}

1.2 Model selection and training/validation/test sets

1.2.1 Model selection

模型的特徵數不是越多越好，過多的特徵數容易導致過擬合。確定模型的多項式次數d(d=polynomial level)是機器學習系統設計中重要的一環，這也被稱作模型選擇(model selection)問題。

假設我們有十個多項式次數遞增的備選模型(d=1,2,…,10)，確定多項式次數的步驟如下：
Step1: 用訓練集訓練每個模型，得到引數 $θ^{(1)}, θ^{(2)}, . . ., θ^{(10)}$

【Machine Learning, Coursera】機器學習Week6 機器學習應用建議

Advice for Applying ML

1. Evaluating a Learning Algorithm

1.1 Evaluating a hypothesis

1.2 Model selection and training/validation/test sets

1.2.1 Model selection

【Machine Learning, Coursera】機器學習Week6 偏斜資料集的處理

【Machine Learning, Coursera】機器學習Week6 機器學習應用建議

【Machine Learning, Coursera】機器學習Week7 核函式

【Machine Learning, Coursera】機器學習Week7 支援向量機的應用

【Machine Learning, Coursera】機器學習Week3 Logistic Regression

【Machine Learning with Peppa】分享機器學習，數學，統計和程式設計乾貨

【Machine Learning】機器學習及其基礎概念簡介

【Machine Learning Done Wrong】機器學習七種易犯的錯誤

【Machine Learning】機器學習：簡明入門指南

【Machine Learning·機器學習】決策樹之ID3演算法(Iterative Dichotomiser 3)

斯坦福大學公開課機器學習： advice for applying machine learning | regularization and bais/variance（機器學習中方差和偏差如何相互影響、以及和算法的正則化之間的相互關系）

【Machine :Learning】樸素貝葉斯

【Machine Learning 】線性迴歸

【資訊科技】【2011】【含部分原始碼】影象處理和機器學習技術在數字乳腺影象中癌組織檢測與分類的應用

【Machine Learning】使用隨機森林進行特徵選擇

【Machine Learning】【Python】三、PSO + PCA優化SVM引數C和gamma ---- 《SVM物體分類和定位檢測》

【machine learning】GMM演算法（Python版）

【Machine learning】引數估計（個人通俗理解）

【Machine Learning】【Python】一、HoG + SVM 物體分類 ---- 《SVM物體分類和定位檢測》

【Machine Learning】Python開發工具：Anaconda+Sublime