skiti-learn Adaboost類庫

阿新 • • 發佈：2018-11-12

skiti-learn的Adaboost庫中包括兩個，AdaboostClassifier(分類)和AdaboostRegressor(迴歸)。AdaboostClassifier有兩種分類演算法實現，SAMME和SAMME.R；AdaboostRegressor只有Adaboost.R2。針對Adaboost調參，主要對兩部分內容，第一部分是對我們Adaboost框架調參，第二部分是對我們選擇的弱分類器進行調參。

AdaboostClassifier和AdaboostRegressor框架引數
1）base_estimator:
AdaboostClassifier和AdaboostRegressor均有的引數，即弱學習器。理論上支援任何分類或者回歸學習器，不過需要支援樣本權重，我們一般常用CART決策樹或者神經網路MLP。預設是決策樹，如果選擇AdaboostCLassifier的演算法是 SAMME.R,則選擇的弱分類器還需要支援概率預測，也就是在scikit-learn中弱分類學習器對應的預測方法除了predict還需要有predict_proba。
2）algorithm:
這個引數只有AdaboostClassifier有。主要原因是skiti-learn實現了兩種Adaboost分類器，SAMME和SAMME.R。兩種的主要區別是弱學習器權重的度量，SAMME使用的二分類的Adaboost演算法的擴充套件，即樣本集的分類效果作為弱學習器權重，而SAMME.R使用了對樣本集分類的預測概率大小來作為弱學習器權重。由於SAMME.R使用了概率度量的連續值，迭代一般比SAMME快，因此AdaBoostClassifier的預設演算法algorithm的值也是SAMME.R。我們一般使用預設的SAMME.R就夠了，但是要注意的是使用了SAMME.R，則弱分類學習器引數base_estimator必須限制使用支援概率預測的分類器。SAMME演算法則沒有這個限制。
3）loss：
這個引數只有AdaboostRegressor有，SAMME.R2演算法需要，有‘linear’線性，‘square’平方，以及‘exponential’指數三種選擇。預設為線性，一般線性就可以了，它對應了我們對第k個弱分類器的中第i個樣本的誤差的處理，即：如果是線性誤差，則eki=|yi−Gk(xi)|/Ek；如果是平方誤差，則eki=(yi−Gk(xi))²/E2；如果是指數誤差，則eki=1−exp（−yi+Gk(xi))/Ek），Ek為訓練集上的最大誤差Ek=max|yi−Gk(xi)|i=1,2…m
4）n_estimators：
AdaBoostClassifier和AdaBoostRegressor都有，是我們弱學習器的最大迭代次數，或者最大弱學習器的個數。如果太小則容易欠擬合，太大容易過擬合，一般要選擇一個合適的值，預設為50。
5）learning_rate：
AdaBoostClassifier和AdaBoostRegressor都有，即每個弱學習器的權重縮減係數ν。我們的強學習器的迭代公式為fk(x)=fk−1(x)+ν αkGk(x)。ν的取值範圍為0<ν≤1。對於同樣的訓練集擬合效果，較小的νν意味著我們需要更多的弱學習器的迭代次數。通常我們用步長和迭代最大次數一起來決定演算法的擬合效果。所以這兩個引數n_estimators和learning_rate要一起調參。一般來說，可以從一個小一點的νν開始調參，預設是1。
AdaBoostClassifier和AdaBoostRegressor弱學習器引數
由於選擇的弱學習器不同，對應的學習器的引數也不同。下面僅討論決策樹弱學習器的引數。 DecisionTreeClassifier和DecisionTreeRegressor的引數基本類似，在scikit-learn決策樹演算法類庫這篇文章中我們對這兩個類的引數做了詳細的解釋。
1）劃分時需要考慮的最大特徵數max_features:
預設是"None",意味著劃分時考慮所有的特徵數；如果是"log2"意味著劃分時最多考慮log2N個特徵；如果是"sqrt"或者"auto"意味著劃分時最多考慮√N個特徵。如果是整數，代表考慮的特徵絕對數。如果是浮點數，代表考慮特徵百分比，即考慮（百分比xN）取整後的特徵數。一般來說，如果樣本特徵數不多，比如小於50，我們用預設的"None"就可以了，如果特徵數非常多，我們可以靈活使用剛才描述的其他取值來控制劃分時考慮的最大特徵數，以控制決策樹的生成時間。
2）決策樹最大深max_depth:
預設可以不輸入，不輸入就是不限制子樹的深度。一般情況，資料少或者特徵少可以不管這個值，如果模型樣本量多，特徵也多的情況下，推薦限制這個最大深度，具體的取值取決於資料的分佈。常用的可以取值10-100之間。
3）內部節點再劃分所需要的最小樣本數min_samples_leaf:
這個值限制了子樹繼續劃分，如果某節點的樣本數少於min_samples_split，則不會繼續再嘗試選擇最優特徵來進行劃分。預設是2.如果樣本量不大，不需要管這個值。如果樣本量數量級非常大，則推薦增大這個值。
4）葉子節點最少樣本數min_samples_leaf：
這個值限制了葉子節點最少的樣本數，如果某葉子節點數目小於樣本數，則會和兄弟節點一起被剪枝。預設是1,可以輸入最少的樣本數的整數，或者最少樣本數佔樣本總數的百分比。如果樣本量不大，不需要管這個值。如果樣本量數量級非常大，則推薦增大這個值。
5）葉子節點最小的樣本權重和min_weight_fraction_leaf：
這個值限制了葉子節點所有樣本權重和的最小值，如果小於這個值，則會和兄弟節點一起被剪枝。預設是0，就是不考慮權重問題。一般來說，如果我們有較多樣本有缺失值，或者分類樹樣本的分佈類別偏差很大，就會引入樣本權重。
6）最大葉子節點數max_leaf_nodes：
通過限制最大葉子節點數，可以防止過擬合，預設是"None”，即不限制最大的葉子節點數。如果加了限制，演算法會建立在最大葉子節點數內最優的決策樹。如果特徵不多，可以不考慮這個值，但是如果特徵分成多的話，可以加以限制，具體的值可以通過交叉驗證得到。

skiti-learn Adaboost類庫

skiti-learn的Adaboost庫中包括兩個，AdaboostClassifier(分類)和AdaboostRegressor(迴歸)。AdaboostClassifier有兩種分類演算法實現，SAMME和SAMME.R；AdaboostRegressor只有Adaboost.R2。

skiti-learn GBDT類庫

GBDT類庫boosting框架引數 GradientBoostingClassifier和GradientBoosting的引數大部分相同 1）n_estimators:弱學習器的迭代次數，或者說是弱學習器的個數，預設為100，實際調參常與learning_rate共同考慮 2）learning_rate

scikit-learn Adaboost類庫使用小結

　在整合學習之Adaboost演算法原理小結中，我們對Adaboost的演算法原理做了一個總結。這裡我們就從實用的角度對scikit-learn中Adaboost類庫的使用做一個小結，重點對調參的注意事項做一個總結。 1. Adaboost類庫概述　　　　scikit-learn中Adaboost類庫比

skiti-learn KNN演算法庫

skiti-learn中KNN分類樹的類是KNighborsClassifier,KNN迴歸樹的類是KNighborsRegressor.除此之外，限定半徑的最鄰近分類樹RadiusNighborsClassifier,限定半徑的最鄰近迴歸樹RadiusNighborsRegressor,最

skiti-learn 支援向量機類庫（SVM）

SVM演算法庫分為兩類，一類是分類演算法庫，SVC，NuSVC,LinearSVC；另一類是迴歸演算法庫，SVR,NuSVR,LinearSVR。分類演算法庫中，SVC，NuSVC差不多，區別在於損失的度量方式不同；LinearSVC是線性分類，不支援從低維到高維的核函式，僅僅支援線性核函

skiti-learn邏輯迴歸演算法庫

skiti-learn中，與邏輯迴歸相關的3個類：LogisticRegression, LogisticRegressionCV,logistic_regression_path。LogisticRegressionCV使用交叉驗證選擇正則化係數C。logistic_regression_

skiti-learn線性迴歸演算法庫

線性迴歸的目的是要得到輸出向量Y和輸入特徵X之間的線性關係，求出線性迴歸係數θ,也就是 Y=Xθ。其中Y的維度為mx1，X的維度為mxn，而θ的維度為nx1 LinearRegression 最常見的普通線性迴歸，損失函式如下： J(θ)=1/2 (Xθ−Y)T (Xθ−Y)

Skiti-learn 樸素貝葉斯庫

樸素貝葉斯共有三種分類演算法，GaussianNB,MultinomialNB和BernouliNB，GaussianNB是先驗為高斯分佈的樸素貝葉斯，MultinomialNB是先驗為多項式分佈的樸素貝葉斯，BornouliNB是先驗為伯努利分佈的樸素貝葉斯；一般情況下，如果樣本特徵的分佈

skiti-learn決策樹演算法庫

skiti-learn內部實現的是調優過的CART決策樹。既可以做分類，也可以做迴歸。分類決策樹採用的類是DecisionTreeClassifier,迴歸則是DecisionTreeRegressor。 DecisionTreeClassifier and DecisionTr

scikit-learn決策樹演算法類庫使用小結

　　　　之前對決策樹的演算法原理做了總結，包括決策樹演算法原理(上)和決策樹演算法原理(下)。今天就從實踐的角度來介紹決策樹演算法，主要是講解使用scikit-learn來跑決策樹演算法，結果的視覺化以及一些引數調參的關鍵點。 1. scikit-learn決策樹演算法類庫介紹　　　　scikit-lear

linux和windows下安裝python拓展包及requirement.txt安裝類庫

too tor == 引導 -cp mod flask utf addition http://blog.csdn.net/pipisorry/article/details/39902327python拓展包安裝直接安裝拓展包默認路徑：Unix(Linux)默認路徑：/

ASP.NET Core實現類庫項目讀取配置文件

services 應用程序配置文件 builder public .NET Core類庫項目讀取JSON配置文件在應用程序目錄下添加JSON文件是進行如下配置： var builder = new ConfigurationBuilder()

JavaScript-創建第一個自己的類庫

spa 內部 man efi i++ ont 基礎上 ner dev 通過上一節面向對象和原型的學習。我們知道了怎樣創建一個類，包含類的私有化屬性和方法、公有化屬性和方法、靜態屬性和方法。在這裏略微回想一下。首先要創建一個類能夠通過1.new obj

Java核心類庫-IO-文件過濾器（FilenameFilter）

return 文件過濾 system sof boolean style 接口 strong family 文件操作過濾器（FilenameFilter）： listFiles（FilenameFilter filter ）方法：實際就相當於： //文件過濾器（Fil

Java核心類庫-IO-字符解碼和編碼操作

編碼亂碼 .cn 字符字符串 tro com str 數組編碼：把字符串轉換為byte數組。解碼：把byte數組轉換為字符串。一定要保證編碼和解碼的字符集相同，否則亂碼。 Java核心類庫-IO-字符解碼和編碼操作

Java核心類庫-IO-字節數組流/內存流

sta throws demo print char 字符數 lang java 字節數組內存流（數組流）：　　把數據先臨時存在數組中，待會再從數組中獲取出來。　　1. 字節內存流：ByteArrayInputStream/ByteArrayOutputStream

Java核心類庫-IO-對象流（實現序列化與反序列化）

.get throws 反序 code row cts new java cep 使用對象流來完成序列化和反序列化操作：　　ObjectOutputStream：通過writeObject()方法做序列化操作的　　ObjectInputStream：通過readObje

Java核心類庫-IO-打印流（PrintStream/PrintWriter）

int div leo obj clas 打印流 println 不換行 pan 打印流，打印數據的，打印流只能是輸出流： PrintStream：字節打印流。 PrintWriter：字符打印流。對於PrintWriter來說，當啟用字段刷新之後 PrintWrite

Java核心類庫-IO-NIO概述

字符 java 傳統 ont syn 概述 pan spa 數據 NIO：New IO 從JDK1.4開始提出的，新的IO，可以把一塊磁盤文件映射到內存中，我們再去讀取內存中的數據。存放在java.nio包中 Java NIO（New IO）是Java1.4版本開始引入的

兩款JSON類庫Jackson與JSON-lib的性能對比(新增第三款測試)

border word ogg 收藏一個 gen 每次應用 googl 本篇文章主要介紹了"兩款JSON類庫Jackson與JSON-lib的性能對比(新增第三款測試)"，主要涉及到兩款JSON類庫Jackson與JSON-lib的性能對比(新增第三款測試)方面的內容，

skiti-learn Adaboost類庫

相關推薦