十一、機器學習系統設計

阿新 • • 發佈：2018-11-23

1 首先要做什麼

首先要選擇合適的特徵。

2 錯誤分析

構建一個學習演算法的推薦方法：

從一個簡單演算法開始，實現該演算法並用交叉驗證集測試這個演算法；
繪製學習曲線，決定是增加資料還是增加特徵或其他；
進行誤差人工分析：人工檢查交叉驗證集中，演算法中產生預測誤差的例項看看這些例項是否有系統化趨勢。

3 類偏斜的誤差度量

以惡性腫瘤的估計為例，惡性腫瘤的發病率為0.5%，如果預測所有的腫瘤都為良性的，誤差只有0.5%，但是構建
一個神經網路進行預測，可能有1%誤差，這是誤差不能作為評判演算法效果的依據。

因此引入查準率和查全率。

定義混淆矩陣：

查準率Precision:

查準率高，表明預測為惡性腫瘤病人裡實際為惡性腫瘤病人的百分比高。

查全率recall：

查全率高，表明預測為惡性腫瘤病人裡被預測出的實際為惡性腫瘤的病人百分比高。

4 查全率和查準率之間的權衡

使用線性迴歸預測惡性腫瘤，當輸出y∈[0,1]，若我們需要高查準率，採用比0.5更大的閾值如0.7,0.9，這樣會減少錯誤預測病人為惡性腫瘤的情況，但是此時查全率會低。

如果我們需要高查全率，採用比0.5更小的閾值如0.3，這樣會讓所有可能為惡性腫瘤的病人進一步得到檢查。此時查準率低。

判斷演算法是否為好演算法採用 F1 Score：

F1越大，演算法查全率和查準率都相對較高。

十一、機器學習系統設計

1 首先要做什麼首先要選擇合適的特徵。 2 錯誤分析構建一個學習演算法的推薦方法：從一個簡單演算法開始，實現該演算法並用交叉驗證集測試這個演算法；繪製學習曲線，決定是增加資料還是增加特徵或其他；進行誤差人工分析：人工檢查交叉驗證集中，演算法中產生預測誤差的例項看看這些例項是否

Andrew Ng-ML-第十二章-機器學習系統設計

image block 勝利創建向量使用回歸神經網絡邏輯回歸 1.確定執行的優先級圖1.郵件垃圾分類舉例選擇100個單詞作為指示是否是垃圾郵件的指標，將這些單詞作為特征向量，只用0/1表示，出現多次也只用1表示，特征變量用來表示郵件。通常情況下，會

[機器學習系統設計(一)]數據導入，預處理與一次二次擬合

畫圖標簽參數殘差 res 模型 pri itl 創建模型目錄： 1.數據的讀取 2.數據的預處理 3.一次擬合 4.二次擬合 5.分段擬合 6.畫圖案例：已收集某個網頁每個小時被點擊的次數，第一行數據為小時，第二行數據表示點擊次數。現在需擬合出點擊次數與時間的

斯坦福大學機器學習筆記——機器學習系統設計（誤差分析、查全率和查準率、F1值）

這次部落格我們主要討論機器學習系統設計的主要問題，以及怎樣巧妙的構建一個複雜的機器學習系統。我們先用一個例子引入機器學習系統的設計：以一個垃圾郵件分類器演算法為例：對於該問題，我們首先要做的是怎樣選擇並且表達特徵向量x。我們可以選擇100個詞所構

《機器學習系統設計》讀書筆記

stat 工具 cluster sig img idt 讀書筆記 wid ima 1、 scipy中的工具包如下：（會用到的有：stats、interpolate、cluster、signal）《機器學習系統設計》讀書筆記

機器學習系統設計（Building Machine Learning Systems with Python）- Willi Richert Luis Pedro Coelho

切分秘密閾值 isa 占用第二版思考並且了解機器學習系統設計（Building Machine Learning Systems with Python）- Willi Richert Luis Pedro Coelho 總述本書是 2014 的，看完以後才

吳恩達機器學習筆記 —— 12 機器學習系統設計

不知道 cor 算法項目詞語樣本我們們的 ... http://www.cnblogs.com/xing901022/p/9362339.html 本章主要圍繞機器學習的推薦實踐過程以及評測指標，一方面告訴我們如何優化我們的模型；另一方面告訴我們對於分類的算法

[吳恩達機器學習筆記]11機器學習系統設計5數據量對機器學習的影響

ril 預測數據教程擬合 mic 因此效果數據集 11. 機器學習系統的設計覺得有用的話,歡迎一起討論相互學習~Follow Me 參考資料斯坦福大學 2014 機器學習教程中文筆記 by 黃海廣 11.5 數據量對機器學習的影響 Data For Mac

《機器學習系統設計》高清中文版+高清英文版+源代碼

51cto images mar tex blog proc 中文版對比 com 下載：https://pan.baidu.com/s/1SxtjUnSoeRbbIF8k5MPH3Q 《機器學習系統設計》高清中文版+高清英文版+源代碼帶目錄和書簽，中英文兩版可以對比學習

三十一、python學習之Flask框架(三)檢視：路由、上下文、Flask-Script擴充套件

一、裝飾器路由的具體實現 1.Flask框架路由實現 Flask有兩大核心：Werkzeug和Jinja2 Werkzeug實現路由、除錯和Web伺服器閘道器介面 Jinja2實現了模板。 Werkzeug是一個遵循WSGI協議的python函式庫

機器學習系統設計——誤差分析

Rcommended approach Start with a simple algorithm that you can implement quickly. Implement it and test it on your cross-validation data. Plot learni

機器學習系統設計——誤差矩陣

對於癌症檢測的例子來說，y=1代表有癌症 Precision/Recall Actual class 1 0 Predicted

機器學習系統設計.

前言：本文課件均來自Andrew Ng老師的machine learning公開課課程。一、評價模型評價模型的一種標準方法是把資料集隨機分為訓練集和測試集，訓練集和測試集的樣本比例是7:3，下面舉例線性迴歸和邏輯迴歸的訓練/測試步驟：

Stanford機器學習---第七講機器學習系統設計

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

四十一、python學習之Django框架(二):Cookie,Session的相關使用

三、cookie: Cookie,有時也用其複數形式Cookies, 指某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端的資料(通常經過加密) Cookie最早是網景公司的前僱員Lou Montulli在1993年3月的發明。 Cookie是由伺服器端

機器學習系統設計和診斷方法學習總結

過擬合：對訓練資料擬合精準，但是對未知的資料預測能力差如何應對？ 2、丟棄一些不能幫助正確預測的特徵。 2.1、手工選擇丟棄特徵 2.2、使用模型選擇方法（如PCA） 3、正則化。保留所有的特徵，減少引數的大小預防過擬合的方法步驟： 1、打亂資料集；2、劃分資料：70%

【章華燕的達人課】一、機器學習

##1.AI 和機器學習我研究的方向是深度學習，說實話我對機器學習的瞭解，並不多，還沒有那麼深入，但是直接就跑到了機器學習上，很疑惑，很多知識並不懂。然後老師講到了這三者的關係，所以學習深度學習之前應該先學習機器學習，然後才能瞭解更多的內容。所謂“基礎不牢

《機器學習系統設計》之應用scikit-learn做文字分類（上）

前言：本系列是在作者學習《機器學習系統設計》（[美] WilliRichert）過程中的思考與實踐，全書通過Python從資料處理，到特徵工程，再到模型選擇，把機器學習解決問題的過程一一呈現。書中設計的原始碼和資料集已上傳到我的資源：http://download

《機器學習系統設計》之應用scikit-learn做文字分類（下）

# inspired by http://scikit- # learn.org/dev/auto_examples/cluster/plot_kmeans_digits.html#example- # cluster-plot-kmeans-digits-py import os import scipy

大資料（四十一）機器學習【多元線性迴歸例項】

一、前言保險公司對個人投保時或根據歷史資料生成的模型來計算個人保費，那麼本次我們就以這個模型的求解過程為例來實踐下多元線性迴歸。二、資料&簡單分析我們已經獲取到保險公司部分資料，檔名為insurance.csv，檔案內容如下

十一、機器學習系統設計

1 首先要做什麼

2 錯誤分析

3 類偏斜的誤差度量

4 查全率和查準率之間的權衡

相關推薦