大規模機器學習：SGD，mini-batch和MapReduce

阿新 • • 發佈：2019-01-21

機器學習在這幾年得到快速發展，一個很重要的原因是 Large Dataset（大規模資料），這節課就來介紹用機器學習演算法處理大規模資料的問題。

關於資料的重要性，有一句話是這麼說的：

It’s not who has the best algorithm that wins.
It’s who has the most data.

然而，當資料量過大時，計算的複雜度會增加，計算成本也會提高。假如資料量是一百萬，使用梯度下降演算法來訓練引數，每走一步，需要對百萬資料進行求和計算，這樣的計算量是極大的。但現實問題總是有大量資料，比如全國的車輛、網民等等。那麼，我們就有必要研究一下如何更好地處理大規模資料。

方案一：Stochastic Gradient Descent

以 linear regression 為例，先開看看我們原來的梯度下降演算法：

圖中給出了要求的model h(x)、目標函式J、以及梯度下降演算法（迴圈部分）。迭代的過程：每一步使用所有資料計算θ，並重新賦值，然後下一步再使用所有資料和上一步求得的θ更新θ。圖中右側，中心點是最優點，θ從起始點，每迭代一步就像中心點移動一步，最終走到中心點求出θ最優值。這裡的問題是，每迭代一步，就需要計算所有資料（如百萬資料）。

上述梯度下降演算法也叫 batch gradient descent 。下面我們做些改進，以適應大資料的情況。

上圖右側，我們改變了迭代形式。對於訓練集中每個資料，fit θ，使得模型符合這個資料，然後用第二個資料走同樣步驟，以此類推。也就是說，每個資料都能獲得目前為止最優的θ。這樣的迭代，我們稱為 stochastic gradient descent 。

需要注意：迭代之前，需要 randomly shuffle training example. 因為資料的不同使用次序，得到的結果不盡相同。

下面給出該演算法的步驟和演示圖：

從演示圖可以看出，θ最後可能圍繞最優點左右搖擺而達不到最優點。θ甚至可能不會converge。那麼，怎麼檢查θ能否converge呢？

每迭代n個數據（eg.1000），使用目前得到的θ，計算這n個數據的cost，並繪製在橫座標為迭代次數、縱座標為cost的座標系中。隨著迭代次數增加，座標系中的曲線越來越長。觀察曲線形狀，如果一直呈下降趨勢，那麼說明可以converge，如果一直上下搖擺或者上升趨勢，就說明無法converge。對於後者，可以隨著迭代次數的增加逐漸減小α（學習速度），就可以保證θ可以converge。

一個應用：Online learning

Online learning 是根據不斷湧入的新資料更新θ從而改進我們的model。例如一個貨運訂單系統，使用者輸入出發地、目的地，網站會給出價格，使用者會選擇下單或取消。這裡的model就是，給出使用者特徵和出發地、目的地，通過model得出適當價格。這是一個 logistic regress 問題。每當有一個使用者進行上述行為，我們的訓練集就動態增加了一個數據，這樣就可以使用 stochastic gradient descent 動態優化model。

方案二： Mini-Batch Gradient Descent

在 batch gradient descent 中，我們每次迭代使用全部m個數據。

在 stochastic gradient descent 中，每次迭代使用1個數據。

在 Mini-Batch Gradient Descent 中，每次迭代用b（2-m）個數據，算作一種折中方案。b即為 mini-batch 。

結合上面兩個演算法，第三個演算法很容易理解，如下：

方案三：Map Reduce and Data Parallelism

當資料量很大，我們又希望使用 batch gradient descent 時，可以將資料分割並分佈到不同的機器上進行區域性運算，然後彙總。

圖中，把迭代式加和的部分分割開，400個數據分佈到4臺機器上，每臺機器同步處理100個數據，
最後將四個結果再相加，得到迭代式中加和項的結果。

總的來說，對於大資料，或者分佈到不同機器上同步處理，或者使用單資料迭代的演算法。

大規模機器學習：SGD，mini-batch和MapReduce

方案一：Stochastic Gradient Descent

方案二： Mini-Batch Gradient Descent

方案三：Map Reduce and Data Parallelism

大規模機器學習：SGD，mini-batch和MapReduce

機器學習：Regression，第一個簡單的示例，多項式迴歸

概率統計與機器學習：期望，方差，數學期望，樣本均值，樣本方差之間的區別

機器學習：支援向量機SVM和人工神經網路ANN的比較

Ng第十七課：大規模機器學習(Large Scale Machine Learning)

斯坦福大學公開課機器學習：Neural Networks，representation: non-linear hypotheses（為什麽需要做非線性分類器）

斯坦福大學公開課機器學習：machine learning system design | data for machine learning（數據量很大時，學習算法表現比較好的原理）

機器學習：K近鄰演算法，kd樹

機器學習筆記第4課：偏差，方差和權衡

機器學習：訓練集，驗證集與測試集

機器學習筆記（十六）：大規模機器學習

機器學習：整合學習（ensemble)，bootstrap，Bagging，隨機森林，Boosting

機器學習：決策樹過擬合與剪枝，決策樹程式碼實現（三）

機器學習：結點的實現，決策樹程式碼實現（二）

機器學習：資訊熵，基尼係數，條件熵，條件基尼係數，資訊增益，資訊增益比，基尼增益，決策樹程式碼實現（一）

機器學習：樸素貝葉斯分類器，決策函式向量化處理，mask使用技巧

機器學習：樸素貝葉斯分類器程式碼實現，決策函式非向量化方式

機器學習：貝葉斯分類器，樸素貝葉斯，拉普拉斯平滑

概率統計與機器學習：獨立同分布，極大似然估計，線性最小二乘迴歸

機器學習公開課筆記(10)：大規模機器學習

大規模機器學習：SGD，mini-batch和MapReduce

方案一：Stochastic Gradient Descent

方案二： Mini-Batch Gradient Descent

方案三：Map Reduce and Data Parallelism

相關推薦