機器學習-如何有效使用機器學習演算法

怎麼改進演算法

當使用訓練好的模型時，新樣本輸出的資料產生了巨大的誤差，如何改進演算法的效能。

使用更多的訓練樣本，但通常來講並沒有什麼卵用
嘗試選用更少的特徵集，來防止過擬合
或許也需要更多的特徵集，當目前的特徵集對你沒有多大用處時，可以從更多的特徵角度去收集更多的特徵
增加多項式特徵
減小正則化中的 $\lambda$ 的值
增大正則化中的 $\lambda$ 的值

我們不應該隨機選擇上面的某種方法來改進我們的演算法，而是運用一些機器學習診斷法來幫助我們知道上面哪些方法對我們的演算法是有效的。

怎麼評估演算法的效能（機器學習診斷法[machine learning diagnostics]）

“診斷法”的意思是：這是一種測試法，你通過執行這種測試，能夠深入瞭解某種演算法到底是否有用。這通常也能夠告訴你，要想改進一種演算法的效果，什麼樣的嘗試，才是有意義的。

標準方法

將所有資料按照 7：3 的比例分成訓練集和測試集，使用 $($

x t e s t ( i

) ， y t e s t ( i ) ) (x_{test}^{(i)}，y_{test}^{(i)}) $(x_{t e s t}^{(i)} ， y_{t e s t}^{(i)})$ 表示測試集資料。

如果所有的資料存在規律或順序，最好先打亂順序再按比例分割。
測試集評估在通過訓練集讓我們的模型學習得出其引數後，對測試集運用該模型，我們有兩種方式計算測試集誤差：
1. 對於線性迴歸模型，我們利用測試集資料計算代價函式 $J_{test}(\theta)$
2. 對於邏輯迴歸模型，我們除了可以利用測試資料集來計算代價函式外：
  $J_{test}{(\theta)} = -\frac{1}{{m}_{test}}\sum_{i=1}^{m_{test}}\log{h_{\theta}(x^{(i)}_{test})}+(1-{y^{(i)}_{test}})\log{h_{\theta}(x^{(i)}_{test})}$
誤分類的比率，對於每一個測試集樣本，計算：

然後對計算結果求平均。

怎麼選擇模型

通過交叉驗證，選擇能最好的擬合數據的多項式次數的模型

定義多個模型，每個模型的次數不同，使用 $d$ 表示模型的多項式最高次數。
將所有資料按照 6：2：2 的比例分成訓練集、交叉驗證集和測試集，使用 $(x_{cv}^{(i)}，y_{cv}^{(i)})$ 表示驗證集資料，使用 $(x_{test}^{(i)}，y_{test}^{(i)})$ 表示測試集資料。

如果所有的資料存在規律或順序，最好先打亂順序再按比例分割。

$m_{cv}$ 表示驗證集總數， $m_{test}$ 表示測試集總數。

同樣的，我們能夠定義訓練集誤差 $J_{train}{(\theta)}$ 、驗證集誤差 $J_{cv}{(\theta)}$ 、測試集誤差 $J_{test}{(\theta)}$
使用訓練集代入所有模型並通過訓練使得最終代價函式 $J(\theta)$ 最小，再使用驗證集代入訓練後的所有模型來算出 $J_{cv}{(\theta)}$ ，選出能最好的對交叉驗證集進行預測的模型（ $J_{cv}{(\theta)}$ 最小的模型），確定最終模型的最高次數 $d$ 。
使用測試集，預測或估計，通過學習演算法得出的模型的泛化誤差。

最好按比例分出三份不一樣的資料，如果只分為兩份，讓其中一份既作為驗證集又作為測試集，並不好。

模型出現問題，是欠擬合還是過擬合

偏差比較大（欠擬合）
方差比較大（過擬合）

高偏差（欠擬合）： 當 訓練集資料 和 驗證集資料 出現的誤差都很大時，且兩個誤差可能很接近或者可能驗證誤差稍大一點。

高方差（過擬合）： 當 訓練集資料 出現的誤差很小， 驗證集資料 出現的誤差很大時，且 $J_{cv}{(\theta)} > > J_{train}{(\theta)}$

誤差即 $J(\theta)$ $>>$ 遠大於

如何選取正則化引數 $\lambda$

之前通過交叉驗證後我們已經選擇了一個合適的模型，但是我們還沒有正則化項。

這次我們仍然通過交叉驗證，來進行選擇一個合適的正則化引數 $\lambda$ 。

定義多個正則化引數 $\lambda$ ，每個模型的 $\lambda$ 不同。
將所有資料按照 6：2：2 的比例分成訓練集、交叉驗證集和測試集，使用 $(x_{cv}^{(i)}，y_{cv}^{(i)})$ 表示驗證集資料，使用 $(x_{test}^{(i)}，y_{test}^{(i)})$ 表示測試集資料。

如果所有的資料存在規律或順序，最好先打亂順序再按比例分割。

$m_{cv}$ 表示驗證集總數， $m_{test}$

相關推薦

小白python學習——機器學習篇——k-近鄰演算法（KNN演算法）

一、演算法理解一般給你一資料集，作為該題目的資料（一個矩陣，每一行是所有特徵），而且每一組資料都是分了類，然後給你一個數據，讓這個你預測這組資料屬於什麼類別。你需要對資料集進行處理，如：歸一化數值。處理後可以用matplotlib繪製出影象，一般選兩個特徵繪製x，y軸，然後核心是計算出預測點到

機器學習的13種演算法和4種學習方法，推薦給大家

機器學習的演算法很多。很多時候困惑人們都是，很多演算法是一類演算法，而有些演算法又是從其他演算法中延伸出來的。這裡，我們從兩個方面來給大家介紹，第一個方面是學習的方式，第二個方面是演算法的分類。一、4大主要學習方式 1.監督式學習在監督式學習下，輸入資料被稱為“訓練資料”，

分享《Python機器學習—預測分析核心演算法》高清中文版PDF+高清英文版PDF+原始碼

下載：https://pan.baidu.com/s/1sfaOZmuRj14FWNumGQ5ahw 更多資料分享：http://blog.51cto.com/3215120 《Python機器學習—預測分析核心演算法》高清中文版PDF+高清英文版PDF+原始碼高清中文版，338頁，帶目錄和書籤，文字能夠

Python機器學習——預測分析核心演算法 pdf 下載

機器學習關注於預測，其核心是一種基於數學和演算法的技術，要掌握該技術，需要對數學及統計概念有深入理解，能夠熟練使用R 語言或者其他程式語言。　　本書通過集中介紹兩類可以進行有效預測的機器學習演算法，展示瞭如何使用Python 程式語言完成機器學習任務，從而降低機器學習難度，使機器

吳恩達機器學習 - 無監督學習——K-means演算法吳恩達機器學習 - 無監督學習——K-means演算法

原吳恩達機器學習 - 無監督學習——K-means演算法 2018年06月25日 12:02:37 離殤灬孤狼閱讀數：181

機器學習：K近鄰演算法，kd樹

https://www.cnblogs.com/eyeszjwang/articles/2429382.html kd樹詳解 https://blog.csdn.net/v_JULY_v/article/details/8203674 一、K-近鄰演算法（KNN）概述

機器學習筆記——最鄰近演算法（KNN）補充

最鄰近演算法補充(K-Nearest Neighbor,KNN) 1、訓練資料集？測試資料集？我們在使用機器學習演算法訓練好模型以後，是否直接投入真實環境中使用呢？其實並不是這樣的，在訓練好模型後我們往往需要對我們所建立的模型做一個評估來判斷當前機器學習演算法的效能，當我們在

圖解機器學習十大常用演算法

通過本篇文章可以對ML的常用演算法有個常識性的認識，沒有程式碼，沒有複雜的理論推導，就是圖解一下，知道這些演算法是什麼，它們是怎麼應用的，例子主要是分類問題。每個演算法都看了好幾個視訊，挑出講的最清晰明瞭有趣的，便於科普。以後有時間再對單個演算法做深入地解析。今天的演算法如下：

機器學習實戰——k-近鄰演算法Python實現問題記錄

準備 kNN.py 的python模組 from numpy import * import operator def createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

機器學習之--梯度下降演算法

貌似機器學習最繞不過去的演算法，是梯度下降演算法。這裡專門捋一下。 1. 什麼是梯度有知乎大神已經解釋的很不錯，這裡轉載並稍作修改，加上自己的看法。先給出連結，畢竟轉載要說明出處嘛。為什麼梯度反方向是函式值區域性下降最快的方向？因為高等數學都忘光了，先從導數/偏倒數/方向

機器學習十大經典演算法：（2）k-means演算法

1.基本Kmeans演算法[1] [cpp] view plain copy 選擇K個點作為初始質心   repeat

機器學習十大經典演算法：（1）C4.5演算法

C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3演算法. C4.5演算法繼承了ID3演算法的優點，並在以下幾方面對ID3演算法進行了改進： 1)用資訊增益率來選擇屬性，克服了用資訊增益選擇屬性時偏向選擇取值多的屬性的不足；   &nbs

機器學習十大常用演算法彙總

1.決策樹以一個根節點開始，每一個節點提出一個問題，基於feature將資料分為兩類，再子節點上再繼續提問。每個節點上的問題和分類規則是根據已有的訓練資料學習出來的。決策樹通常有三個步驟：特徵選擇、決策樹的生成、決策樹的修剪。上圖為一個決策

目前人工智慧最火的是-深度學習、機器學習、，採用深入淺出的方法，結合例項並配以大量程式碼練習，重點講解深度學習框架模型、科學演算法、訓練過程技巧。

深度學習DeepLearning人工智慧核心技術開發與應用 2018年09月13日— 2018年09月16日北京物件：從事人工智慧、深度學習、計算機視覺、人臉識別、影象處理、行人檢測、自然語言處理區塊鏈等醫學遙感電力金融經濟等高維度資料領域相關的老師研究生工程師；

Python3《機器學習實戰》學習筆記（一）：k-近鄰演算法

**轉載：**http://blog.csdn.net/c406495762執行平臺： WindowsPython版本： Python3.xIDE： Sublime text3 他的個人網站：http://cuijiahua.com 文章目錄

基於機器學習的文字分類演算法的研究

1. 簡述文字分類的方法屬於有監督的學習方法，分類過程包括文字預處理、特徵抽取、降維、分類和模型評價。本文首先研究了文字分類的背景，中文分詞演算法。然後是對各種各樣的特徵抽取進行研究，包括詞項頻率-逆文件頻率和word2vec，降維方法有主成分分析法和潛在索引分析，最後是對分類演算法進行研究，

機器學習_6.隱馬演算法的程式碼實現

借鑑：https://github.com/Continue7777/HMM/ 依舊基於三個問題進行實現 1.評估（1）描述給定觀測序列O（o1,o2,…,oT）和模型u = (π,A,B),求出P（O | u）,即給定模型下觀測序列的概率是多少？（2）實際演算法不再

機器學習_8.決策樹演算法

1.ID3演算法預備知識 1.資訊熵： 2.資訊增益    演算法內容引入了資訊理論中的互資訊（資訊增益）作為選擇判別因素的度量，即：以資訊增益的下降速度作為選取分類屬性的標準，所選的測試屬性是從根節點到當前節點的路徑上從沒有

《機器學習實戰》學習總結1——K-近鄰演算法

新手入門學習機器學習，根據ApacheCN的視訊學習程式碼，視訊可以在bilibili線上播放。有需要資料的可以在GitHub下載：https://github.com/RedstoneWill/MachineLearning 本文最主要的是分析程式碼的功能與實現，相應的原理大家拿看就好了

C++單刷《機器學習實戰》——kNN演算法完整程式碼

#include <iostream> #include <cmath> #include<map> #include<string> #include<sstream> #include<fstream> #include&l