sklearn：使用樹集合進行特徵轉換

阿新 • • 發佈：2018-12-07

將您的功能轉換為更高維度的稀疏空間。然後訓練這些特徵的線性模型。

首先在訓練集上安裝一組樹木（完全隨機的樹木，隨機森林或梯度提升的樹木）。然後，在集合中的每個樹的每個葉子被分配在新特徵空間中的固定的任意特徵索引。然後以一熱的方式編碼這些葉索引。

每個樣本都經過整體的每棵樹的決定，並以每棵樹的一片葉子結束。通過將這些葉的特徵值設定為1並將其他特徵值設定為0來對樣本進行編碼。

然後，所得到的變換器學習了資料的監督的，稀疏的，高維的分類嵌入。

import numpy as np
np.random.seed(10)

import matplotlib.pyplot as plt

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import (RandomTreesEmbedding, RandomForestClassifier,
                              GradientBoostingClassifier)
from sklearn.preprocessing import OneHotEncoder

from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve
from sklearn.pipeline import make_pipeline

n_estimator = 10
X, y = make_classification(n_samples=80000)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)
# It is important to train the ensemble of trees on a different subset
# of the training data than the linear regression model to avoid
# overfitting, in particular if the total number of leaves is
# similar to the number of training samples
X_train, X_train_lr, y_train, y_train_lr = train_test_split(X_train,
                                                            y_train,
                                                            test_size=0.5)

# Unsupervised transformation based on totally random trees
rt = RandomTreesEmbedding(max_depth=3, n_estimators=n_estimator,
	random_state=0)

rt_lm = LogisticRegression()
pipeline = make_pipeline(rt, rt_lm)
pipeline.fit(X_train, y_train)
y_pred_rt = pipeline.predict_proba(X_test)[:, 1]
fpr_rt_lm, tpr_rt_lm, _ = roc_curve(y_test, y_pred_rt)

# Supervised transformation based on random forests
rf = RandomForestClassifier(max_depth=3, n_estimators=n_estimator)
rf_enc = OneHotEncoder()
rf_lm = LogisticRegression()
rf.fit(X_train, y_train)
rf_enc.fit(rf.apply(X_train))
rf_lm.fit(rf_enc.transform(rf.apply(X_train_lr)), y_train_lr)

y_pred_rf_lm = rf_lm.predict_proba(rf_enc.transform(rf.apply(X_test)))[:, 1]
fpr_rf_lm, tpr_rf_lm, _ = roc_curve(y_test, y_pred_rf_lm)

grd = GradientBoostingClassifier(n_estimators=n_estimator)
grd_enc = OneHotEncoder()
grd_lm = LogisticRegression()
grd.fit(X_train, y_train)
grd_enc.fit(grd.apply(X_train)[:, :, 0])
grd_lm.fit(grd_enc.transform(grd.apply(X_train_lr)[:, :, 0]), y_train_lr)

y_pred_grd_lm = grd_lm.predict_proba(
    grd_enc.transform(grd.apply(X_test)[:, :, 0]))[:, 1]
fpr_grd_lm, tpr_grd_lm, _ = roc_curve(y_test, y_pred_grd_lm)


# The gradient boosted model by itself
y_pred_grd = grd.predict_proba(X_test)[:, 1]
fpr_grd, tpr_grd, _ = roc_curve(y_test, y_pred_grd)


# The random forest model by itself
y_pred_rf = rf.predict_proba(X_test)[:, 1]
fpr_rf, tpr_rf, _ = roc_curve(y_test, y_pred_rf)

plt.figure(1)
plt.plot([0, 1], [0, 1], 'k--')
plt.plot(fpr_rt_lm, tpr_rt_lm, label='RT + LR')
plt.plot(fpr_rf, tpr_rf, label='RF')
plt.plot(fpr_rf_lm, tpr_rf_lm, label='RF + LR')
plt.plot(fpr_grd, tpr_grd, label='GBT')
plt.plot(fpr_grd_lm, tpr_grd_lm, label='GBT + LR')
plt.xlabel('False positive rate')
plt.ylabel('True positive rate')
plt.title('ROC curve')
plt.legend(loc='best')
plt.show()

plt.figure(2)
plt.xlim(0, 0.2)
plt.ylim(0.8, 1)
plt.plot([0, 1], [0, 1], 'k--')
plt.plot(fpr_rt_lm, tpr_rt_lm, label='RT + LR')
plt.plot(fpr_rf, tpr_rf, label='RF')
plt.plot(fpr_rf_lm, tpr_rf_lm, label='RF + LR')
plt.plot(fpr_grd, tpr_grd, label='GBT')
plt.plot(fpr_grd_lm, tpr_grd_lm, label='GBT + LR')
plt.xlabel('False positive rate')
plt.ylabel('True positive rate')
plt.title('ROC curve (zoomed in at top left)')
plt.legend(loc='best')
plt.show()

sklearn：使用樹集合進行特徵轉換

將您的功能轉換為更高維度的稀疏空間。然後訓練這些特徵的線性模型。首先在訓練集上安裝一組樹木（完全隨機的樹木，隨機森林或梯度提升的樹木）。然後，在集合中的每個樹的每個葉子被分配在新特徵空間中的固定的任意特徵索引。然後以一熱的方式編碼這些葉索引。每個樣本都經過整體的每棵樹的決定，

sklearn：使用GBDT選擇特徵

（1）如何在numpy陣列中選取若干列或者行？ >>>import numpy as np >>>tmp_a = np.array([[1,1], [0.4,

sklearn:使用完全隨機樹進行雜湊特徵轉換

RandomTreesEmbedding提供了一種將資料對映到非常高維，稀疏表示的方法，這可能有利於分類。對映完全不受監督且非常有效。此示例視覺化由多個樹給出的分割槽，並顯示轉換如何也可用於非線性降維或非線性分類。相鄰的點通常共享樹的相同葉子，因此共享其散列表示的大部分。這允許簡單地基

Java叠代器問題有100個人圍成一個圈從1開始報數，報到14的這個人就要退出，然後其他人重新開始，從1報數，到14退出問：最後剩下的是100人中的第幾個人用listIterator叠代元素,並對集合進行刪除操作

arraylist ger new println 集合 arr size 計數 add package com.swift; import java.util.ArrayList; import java.util.List; import java.util.Lis

資料結構筆記：樹到二叉樹的轉換

通用樹結構的回顧 -雙親孩子表示法 ·每個結點都有一個指向其雙親的指標 ·每個結點都有若干個指向其孩子的指標另一種屬性結構模型 -孩子兄弟表示法 ·每個節點都有一個指向其第一個孩子的指標 ·每個節點都有一個指向其第一個右兄弟的指標孩子兄弟表示法的特點 -能夠表

使用lambda表示式對集合進行轉換

序言在Java應用中進行集合物件間的轉換是非常常見的事情，有時候在處理某些任務時選擇一種好的資料結構往往會起到事半功倍的作用，因此熟悉每種資料結構並知道其特點對於程式設計師來說是非常重要的，而只知道這些是不夠的，有時候你需要一個Map來處理資料，而此時你手中只有一個List，此時知道如

Excel值班表方案：使用Excel進行不同班次排班並實現多功能自動化統計及檢視轉換

標題本文介紹了用Excel進行多班次排班的一種方案，由於格式轉換問題，本文采用了圖片展示的形式，有關表格所用到的公式，煩請大家自己手動敲打了，這樣一來，還更方便大家加深記憶哦n_n. （本文省略掉了如何根據“班次轉置”工作表的內容上傳到釘釘考勤排班系統，因為操

OpenCV學習記錄（二）：自己訓練haar特徵的adaboost分類器進行人臉識別

上一篇文章中介紹瞭如何使用OpenCV自帶的haar分類器進行人臉識別（點我開啟）。這次我試著自己去訓練一個haar分類器，前後花了兩天，最後總算是訓練完了。不過效果並不是特別理想，由於我是在自己的筆記本上進行訓練，為減少訓練時間我的樣本量不是很大，最後也只是勉強看看效果了

sklearn學習之使用sklearn進行特徵選擇

在本節中我們將使用sklearn.feature_selection模組中的類在高維度的樣本集上進行特徵選擇、降維來提升估計器的效能。 1. Removing features with low variance方差選擇法 sklearn.feature_se

Java程式設計：10進位制數、62進位制數進行相互轉換

場景：要求隨機生成長度較短的使用者名稱，保證使用者名稱唯一，同時保證使用者名稱不易被推測出。解決思路：按序生成唯一序列號，通過演算法將序列號進行混淆，之後將其轉化為 62 進位制的 11 位字串。通

在一個列表中儲存以下元素：apple,grape,banana,pear 3.1 返回集合中的最大的和最小的元素 3.2 將集合進行排序，並將排序後的結果列印在控制檯上 [必做題]

比較類 public class name implements Comparator<f>{ @Override public int compare(f o1, f o2) { return o2.getName().compareTo(o1.get

Redis大總結之三：SORT命令（對列表|集合|有序集合進行排序）

SORT命令對列表|集合|有序集合進行排序對列表進行排序： 127.0.0.1:6379[5]> lrange myList 0 -1 1) "1" 2) "2" 3) "4" 4) "3" 5) "5" 127.0.0.1:6379[5]> sort

ML之DT：基於簡單迴歸問題訓練決策樹(DIY資料集+七種{1~7}深度的決策樹{依次進行10交叉驗證})

ML之DT：基於簡單迴歸問題訓練決策樹(DIY資料集+七種{1~7}深度的決策樹{依次進行10交叉驗證}) 輸出結果設計思路核心程式碼 for iDepth in depthList: for ixval in range(nxval)

C#泛型List< >集合：建立、與陣列轉換，記錄執行時間、裝箱與拆箱、dictionary

List<int > li=new List<int>();//建立泛型集合 List<int>與陣列存放的型別都是固定的，但集合的長度是任意改變的，陣列的大小是固定的。當變數的數量不確定時，採用集合 //陣列

Java：集合與陣列轉換

public void convertCollectionToArray() { List list = new ArrayList(); Object[] objectArray1 = list.toArray(); String[] array1 = list.toArray(new String[

【轉】十分鐘上手sklearn：特徵提取，常用模型，交叉驗證

【轉】https://www.jianshu.com/p/731610dca805 更多幹貨就在我的個人部落格 http://blackblog.tech 歡迎關注！這一篇雖然叫做：十分鐘上手sklearn：特徵提取，常用模型，但是寫著寫著我就想把每一個模型都詳細說一

機器學習筆記：python中使用sklearn中的svm進行分類demo，並輸入分類概率

from sklearn import svm# 使用svm分類demo# sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, probability=

sklearn實戰：使用knn進行迴歸擬合

%matplotlib inline import matplotlib.pyplot as plt import numpy as np # 生成訓練樣本 n_dots = 40 X = 5 * np.random.rand(n_dots, 1) y

結合sklearn進行特徵工程

1 前言該篇部落格主要涉及到sklearn.feature_selection 以及其他相關模型，主要介紹瞭如何利用sklearn進行特徵工程，特徵工程在機器學習中佔有工程師的大部分精力，目前也有很多成熟的方法和理論，但是結合實際業務背景選擇特徵仍然是提升模

Python機器學習庫SKLearn：資料集轉換之預處理資料

資料集轉換之預處理資料：將輸入的資料轉化成機器學習演算法可以使用的資料。包含特徵提取和標準化。原因：資料集的標準化（服從均值為0方差為1的標準正態分佈（高斯分佈））是大多數機器學習演算法的常見要求。如果原始資料不服從高斯分佈，在預測時

sklearn：使用樹集合進行特徵轉換

相關推薦