sklearn:梯度提升正則化

阿新 • • 發佈：2018-12-07

不同正則化策略對梯度提升效果的說明。該示例取自Hastie等人2009。

使用的損失函式是二項式偏差。通過收縮的規則化（learning_rate <1.0）可以顯著提高效能。與收縮相結合，隨機梯度增強（子樣本<1.0）可以通過減少包裝的方差來產生更準確的模型。沒有收縮的子取樣通常效果不佳。減少方差的另一種策略是通過對隨機森林中的隨機分割類似的特徵進行二次取樣（通過max_features引數）。

import numpy as np
import matplotlib.pyplot as plt

from sklearn import ensemble
from sklearn import datasets


X, y = datasets.make_hastie_10_2(n_samples=12000, random_state=1)
X = X.astype(np.float32)

# map labels from {-1, 1} to {0, 1}
labels, y = np.unique(y, return_inverse=True)

X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

original_params = {'n_estimators': 1000, 'max_leaf_nodes': 4, 'max_depth': None, 'random_state': 2,
                   'min_samples_split': 5}

plt.figure()

for label, color, setting in [('No shrinkage', 'orange',
                               {'learning_rate': 1.0, 'subsample': 1.0}),
                              ('learning_rate=0.1', 'turquoise',
                               {'learning_rate': 0.1, 'subsample': 1.0}),
                              ('subsample=0.5', 'blue',
                               {'learning_rate': 1.0, 'subsample': 0.5}),
                              ('learning_rate=0.1, subsample=0.5', 'gray',
                               {'learning_rate': 0.1, 'subsample': 0.5}),
                              ('learning_rate=0.1, max_features=2', 'magenta',
                               {'learning_rate': 0.1, 'max_features': 2})]:
    params = dict(original_params)
    params.update(setting)

    clf = ensemble.GradientBoostingClassifier(**params)
    clf.fit(X_train, y_train)

    # compute test set deviance
    test_deviance = np.zeros((params['n_estimators'],), dtype=np.float64)

    for i, y_pred in enumerate(clf.staged_decision_function(X_test)):
        # clf.loss_ assumes that y_test[i] in {0, 1}
        test_deviance[i] = clf.loss_(y_test, y_pred)

    plt.plot((np.arange(test_deviance.shape[0]) + 1)[::5], test_deviance[::5],
            '-', color=color, label=label)

plt.legend(loc='upper left')
plt.xlabel('Boosting Iterations')
plt.ylabel('Test Set Deviance')

plt.show()

sklearn:梯度提升正則化

不同正則化策略對梯度提升效果的說明。該示例取自Hastie等人2009。使用的損失函式是二項式偏差。通過收縮的規則化（learning_rate <1.0）可以顯著提高效能。與收縮相結合，隨機梯度增強（子樣本<1.0）可以通過減少包裝的方差來產生更準確的模型。沒有收縮

【轉】關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

一、標準化（Z-Score），或者去除均值和方差縮放公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實現時，有兩種不同的方式：

【deeplearning.ai】第二門課：提升深層神經網路——正則化的程式設計作業

正則化的程式設計作業，包括無正則化情況、L2正則化、Dropout的程式設計實現，程式設計中用到的相關理論和公式請參考上一篇博文。問題描述：原問題是判斷足球運動員是否頭球，在此省略問題背景，其實就是二分類問題。有以下型別的資料，藍點為一類，紅點為一類匯入需要的擴充套件包

關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

一、標準化（Z-Score），或者去除均值和方差縮放公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實現時，有兩種不同的方

python機器學習庫sklearn——Lasso迴歸（L1正則化）

Lasso The Lasso 是估計稀疏係數的線性模型。它在一些情況下是有用的，因為它傾向於使用具有較少引數值的情況，有效地減少給定解決方案所依賴變數的數量。因此，Lasso 及其變體是壓縮感知領域的基礎。在一定條件下，它可以恢復一組非零權重的

迴歸問題總結（梯度下降、線性迴歸、邏輯迴歸、原始碼、正則化）

原文地址：http://blog.csdn.net/gumpeng/article/details/51191376 最近，應妹子要求，對迴歸問題進行了總結。網上相關資料很多，主要是針對Andrew Ng的線上課程寫的筆記，但大部分都講得不清晰。這篇部落格不能

使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

本文主要是對照scikit-learn的preprocessing章節結合程式碼簡單的回顧下預處理技術的幾種方法，主要包括標準化、資料最大最小縮放處理、正則化、特徵二值化和資料缺失值處理。內容比較簡單，僅供參考！首先來回顧一下下面要用到的基本知識。均值公式：

sklearn —— 標準化、歸一化、正則化

一、標準化（Z-Score）公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實現時，有兩種不同的方式： 1

正則化筆記

等等平滑等價算子稀疏比較 orm 數據解釋吉譜斯現象Gibbs（又叫吉譜斯效應）：用有限項傅裏葉級數表示有間斷點的信號時，在間斷點附近不可避免的會出現振蕩和超量。超量的幅度不會隨所取項數的增加而減小。只是隨著項數的增多，振蕩頻率變高，並向間斷點處壓縮

[轉] [機器學習] 常用數據標準化（正則化）的方法

機器學習數據評價分享函數 http mean 常用方法訓練數據正則化目的：為了加快訓練網絡的收斂性，可以不進行歸一化處理源地址：http://blog.sina.com.cn/s/blog_8808cae20102vg53.html 而在多指標評價體系中，

【轉】正則化相關鏈接

blog class bsp src rop 折疊 img detail link 正則化，歸一化的概念基於Matlab介紹正則化方法正則化方法：L1和L2 regularization、數據集擴增、dropout 基於Matlab介紹機器學習中的正則化，理解

簡單解釋一下正則化

等高線稀疏相交出現貝葉斯最優他還 lac 分享解釋之前，先說明這樣做的目的：如果一個模型我們只打算對現有數據用一次就不再用了，那麽正則化沒必要了，因為我們沒打算在將來他還有用，正則化的目的是為了讓模型的生命更長久，把它扔到現實的數據海洋中活得好，活得久。

正則化

-- ini 泛化 cati 可能深度 not 增加 algo 　　在深度學習中，許多策略可以減少測試誤差，可能以增加訓練誤差為代價，這些策略統一稱為正則化。　　在《deep learning》中，正則化被定義為 ‘any modification we make to

Regularized least-squares classification（正則化最小二乘法分類器）取代SVM

得出 ack 提高 kernel sys 風險重要 ref height 在機器學習或者是模式識別其中有一種重要的分類器叫做：SVM 。這個被廣泛的應用於各個領域。可是其計算的復雜度以及訓練的速度是制約其在實時的計算機應用的主要原因。因此也非常非常多的算法

邏輯回歸的正則化

正則 .com logistic 可能 cnblogs 技術技術分享 img 規範我們可以規範logistic回歸以類似的方式，我們對線性回歸。作為一個結果，我們可以避免過擬合。下面的圖像顯示了正則化函數，用粉紅色的線顯示出來，是不太可能過度擬合非正則的藍線表示功能：

9月5日正則化總結筆記

cnblogs 學習 bsp 正常講解總結筆記擬合線性預測 ---恢復內容開始--- 學習正則化一下知識需要全部掌握：　　1.線性回歸　　2.邏輯回歸接下來的筆記中，將假設上面的基礎知識全部掌握的程度講解：　　學習正則化首先我們需要知道為什麽學習正

改善深層神經網絡：超參數調試、正則化及優化

正則 ria 左右訓練訓練集第一周 1.3 實驗必須第一周深度學習的實用層面 1.1 訓練、驗證、測試集應用機器學習是個高度叠代的過程：想法--->編碼--->實驗（1）神經網絡的層數（2）隱含層神經元個數（3）學習率（4）激勵函數

stacked generalization 堆積正則化堆積泛化加權特征線性堆積

models tun min use ren bag rec team features https://en.wikipedia.org/wiki/Ensemble_learning Stacking Stacking (sometimes called stacke

機器學習中的正則化

道理 lazy 算法 htbox 而且有趣的文章很難直接作者：陶輕松鏈接：https://www.zhihu.com/question/20924039/answer/131421690來源：知乎著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請註明出處。

吳恩達-深度學習-課程筆記-8: 超參數調試、Batch正則化和softmax( Week 3 )

erp 搜索給定 via 深度 mode any .com sim 1 調試處理( tuning process ) 如下圖所示，ng認為學習速率α是需要調試的最重要的超參數。其次重要的是momentum算法的β參數（一般設為0.9），隱藏單元數和mini-batch的

sklearn:梯度提升正則化

相關推薦