1. 程式人生 > >結構化機器學習項目

結構化機器學習項目

混合 驗證 idt 訓練集 inf 部分 獨立 算法 真的

第一周

1.2 正交化

  正交化:每一個維度只控制一個功能。

  對於監督學習:1,在訓練集上,達到評估的可接受效果;2,在驗證集上有好的效果;3.在測試集有好的效果;4,系統在實際使用上表現得好。

  在這四個部分,會有不同的獨立按鈕來控制實現更好的功能:1,訓練集效果不好:增大神經網絡,優化算法;2.在驗證集上效果不好,正則化,增大訓練集;3,.在測試集上效果不好:增大驗證集;4.實際表現不好:改變驗證集(驗證集分布不正確),改變成本函數

  提前終止(early stopping即會影響訓練集還影響驗證集,不夠正交化)

1.3 --1.4單一數字評估指標

  (如何判斷系統是不是變得更好了,選出效果更好的分類器):把要考慮的指標合成一個單實數

   查準率與查全率之間的折中:查準率,判斷是貓的圖片有多少真的是貓;查全率:在所有正在是貓的圖片中被判斷正確的比率(兩者的分子都是系統判斷是貓的圖片,分母不一樣);用F1指數:查準率和查全率調和平均數。

  用一個指定的驗證集,加上F1指數,能加快叠代速度。

  有n個指標需要滿足:設置單一數字評估:需要讓取其中一個指標來盡量滿足(盡量最高或者最低)+其他n-1個指標滿足閾值即可。

1.5—1.6 數據集的劃分

  機器學習過程:在訓練集上用不同的思路訓練(不同的模型),然後用驗證集來評估選擇一個模型,然後不停地叠代去改善驗證集的性能,最後得到一個最好的成本,拿去給測試集來評估。

  讓測試集和訓練集來自同一個分布:

  例子:把每個地區的數據隨機混合在一起作為驗證集和測試集

  技術分享圖片 技術分享圖片

  測試集的目的是具有一定置信度去評估,保證置信度就足夠了不需要太大的數據集;而且有的時候不需要很高的置信度,所以只分為訓練和驗證,這時驗證集被叫做開發集

結構化機器學習項目