Coursera_機器學習_week6_機器學習應用建議

阿新 • • 發佈：2019-02-05

52nlp的筆記
如何調演算法,可能的措施包括

獲取更多的訓練樣本
增加/減少特徵 or 引入多項式特徵
增加 /減小 λ

對於原始的資料集，一種比較典型的劃分方式是60%的訓練集（training set），20%的交叉驗證集（cross validation set/cv set），以及20%的測試集(test set)：

Diagnosing bias vs. variance(診斷偏差和方差)

這裡寫圖片描述
其中d為迭代次數
1）欠擬合underfitting = 高偏差 high bias
Jtrain和Jcv都比較大；
這時候可以減小λ，增加特徵數，引入多項式特徵，但是擴充資料集不管用
2）過擬合 overfitting = 高方差 high variance
J

train會很小（擬合的非常好），但是Jcv卻很大；
這時候可以增加λ、減小特徵數、擴充資料集

Regularization and bias/variance(正則化和偏差/方差)

那麼，如何選擇正則化引數 λ ?
對於資料集，我們仍將它劃為3份：訓練集，驗證集，測試集。對於給定的正則化模型，例如上面的例子，我們按 λ 從小到大的順序依次取數，然後在訓練集上學習模型引數，在交叉驗證集上計算驗證集誤差，並選擇誤差最小的模型, 也就是選擇 λ，最後再在測試集上評估假設。
這裡寫圖片描述

Learning curves(學習曲線)

考察trainning set 大小和error 大小的關係
這裡寫圖片描述

1）欠擬合的情況下兩個曲線很快變平然後非常靠近，而且最後收斂的位置error的值仍然很高
這種情況下，擴充訓練集合沒用
這裡寫圖片描述

2）過擬合的情況下兩個曲線之間會有很大的gap 不會互相靠近；但是訓練集變大 gap會變小
這種情況下，擴充訓練集合有用

Note：
1）不是任何時候，獲取更多資料都是有用的
2）嘗試人工分析那些在cv set裡面出錯的樣本，分析錯誤原因

skewed data 偏斜資料集

正負樣本的比例差太多這種情況就叫做 skewed data
比如檢測癌症的演算法的資料集中，得癌症的(正樣本)只有0.5%
這時候accuracy並不能很好的檢測演算法的優劣（全部判定負都能獲得99.5%的準確率）

precision /recall

這裡寫圖片描述
準確率precision= truepositive檢測為正且檢測正確no.ofpredictedpositive檢測為正 = truepositive檢測為正且檢測正確Truepositive檢測為正且檢測正確+FalsePosotive檢測為正但檢測錯誤
召回率recall = truepositive檢測為正樣本且檢測正確no.ofactualpositive輸入數據中的正樣本 = truepositive檢測為正且檢測正確Truepositive檢測為正且檢測正確+FalseNeg檢測為負但其實為正
在邏輯迴歸問題中，如何根據precision和recall選擇我們的threshold
這裡寫圖片描述
如果我們希望在非常確定的情況才認定樣本為正（非常確定才告訴你有癌症）
那麼選擇高precision，低recall
如果我們希望不要丟失太多癌症的案例（醫療科研人員）
那麼選擇高recall，低precision

F1 Score

不知道在precision和recall之間如何取捨，可以使用F1 Score 綜合precision和recall來選擇threshold

F1Score=2PRP+R

使用大資料集

通常我們會同時測試多種演算法，選擇效能最好的
很多演算法的效能類似，通常只要給更多的資料，各種演算法的效果都會變好
所以俗語有云，得資料者得天下

Coursera_機器學習_week6_機器學習應用建議

Diagnosing bias vs. variance(診斷偏差和方差)

Regularization and bias/variance(正則化和偏差/方差)

Learning curves(學習曲線)

skewed data 偏斜資料集

precision /recall

F1 Score

使用大資料集

assignment

Coursera_機器學習_week6_機器學習應用建議

機器學習之路--機器學習演算法一覽，應用建議與解決思路

機器學習演算法一覽，應用建議與解決思路（實用！！！劃重點！！！）

第六週（機器學習應用建議）-【機器學習-Coursera Machine Learning-吳恩達】

coursera-斯坦福-機器學習-吳恩達-應用機器學習的建議

【Machine Learning, Coursera】機器學習Week6 機器學習應用建議

機器學習在高德搜尋建議中的應用優化實踐

機器學習--如何將NLP應用到深度學習

機器學習--如何將NLP應用到深度學習(3)

Halcon學習筆記——機器視覺應用工程開發思路及相機標定

【機器學習】--機器學習之樸素貝葉斯從初始到應用

機器學習（四）機器學習與深度學習的實際應用整理

線性代數在機器學習上的基本應用

機器學習機的一般應用流程

關於舉辦“Python機器學習與深度學習核心技術應用”培訓班通知

北大數院學長對轉行機器學習／演算法同學的建議（轉自知乎）

關於舉辦“MATLAB機器學習與深度學習核心技術應用”培訓班通知

[轉] Julia是人工智慧、機器學習、深度學習和平行計算這些應用的較佳選擇

［機器學習］機器學習在短文字分類專案中的應用

機器學習筆記——機器學習建議與誤差分析

Coursera_機器學習_week6_機器學習應用建議

Diagnosing bias vs. variance(診斷偏差和方差)

Regularization and bias/variance(正則化和偏差/方差)

Learning curves(學習曲線)

skewed data 偏斜資料集

precision /recall

F1 Score

使用大資料集

assignment

相關推薦