機器學習sklearn（十八）：特徵工程（九）特徵編碼（三）類別特徵編碼（一）標籤編碼 LabelEncoder

阿新 • • 發佈：2021-06-19

LabelEncoder是一個可以用來將標籤規範化的工具類，它可以將標籤的編碼值範圍限定在[0,n_classes-1]. 這在編寫高效的Cython程式時是非常有用的.LabelEncoder可以如下使用:

>>> from sklearn import preprocessing
>>> le = preprocessing.LabelEncoder()
>>> le.fit([1, 2, 2, 6])
LabelEncoder()
>>> le.classes_
array([1, 2, 6])
>>> le.transform([1, 1, 2, 6])
array([0, 0,  
1, 2])
>>> le.inverse_transform([0, 0, 1, 2])
array([1, 1, 2, 6])

當然，它也可以用於非數值型標籤的編碼轉換成數值標籤（只要它們是可雜湊並且可比較的）:

>>> le = preprocessing.LabelEncoder()
>>> le.fit(["paris", "paris", "tokyo", "amsterdam"])
LabelEncoder()
>>> list(le.classes_)
['amsterdam', 'paris', 'tokyo 
']
>>> le.transform(["tokyo", "tokyo", "paris"])
array([2, 2, 1])
>>> list(le.inverse_transform([2, 2, 1]))
['tokyo', 'tokyo', 'paris']

classsklearn.preprocessing.LabelEncoder

Encode target labels with value between 0 and n_classes-1.

This transformer should be used to encode target values,i.e.

y, and not the inputX.

機器學習sklearn（十七）：特徵工程（八）特徵選擇（三）卡方選擇（二）卡方檢驗

Python有包可以直接實現特徵選擇，也就是看自變數對因變數的相關性。今天我們先開看一下如何用卡方檢驗實現特徵選擇。

機器學習sklearn（十八）：特徵工程（九）特徵編碼（三）類別特徵編碼（一）標籤編碼 LabelEncoder

LabelEncoder是一個可以用來將標籤規範化的工具類，它可以將標籤的編碼值範圍限定在[0,n_classes-1]. 這在編寫高效的Cython程式時是非常有用的.LabelEncoder可以如下使用:

機器學習sklearn（三十九）：演算法例項（八）分類（四）隨機森林分類器 RandomForestRegressor

class sklearn.ensemble.RandomForestRegressor(n_estimators=’warn’, criterion=’mse’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’,max_l

機器學習sklearn（58）：演算法例項（十五）分類（八）邏輯迴歸（三）linear_model.LogisticRegression(二) 重要引數

3 梯度下降：重要引數max_iter 3.1 梯度下降求解邏輯迴歸 3.2 梯度下降的概念與解惑

機器學習sklearn（八）：特徵工程（一）特徵離散化（一）K-bins 離散化

離散化 (Discretization)(有些時候叫量化(quantization) 或裝箱(binning)) 提供了將連續特徵劃分為離散特徵值的方法。某些具有連續特徵的資料集會受益於離散化，因為離散化可以把具有連續屬性的資料集變換成只有

機器學習sklearn（十）：資料處理（五）自定義轉換器

在機器學習中，想要將一個已有的 Python 函式轉化為一個轉換器來協助資料清理或處理。可以使用FunctionTransformer從任意函式中實現一個轉換器。例如，在一個管道中構建一個實現日誌轉換的轉化器，這樣做:

機器學習sklearn（十二）：特徵工程（三）特徵組合與交叉（一）多項式特徵

在機器學習中，通過增加一些輸入資料的非線性特徵來增加模型的複雜度通常是有效的。一個簡單通用的辦法是使用多項式特徵，這可以獲得特徵的更高維度和互相間關係的項。這在PolynomialFeatures中實現:

機器學習sklearn（十一）：資料處理（六）非線性轉換

有兩種型別的轉換是可用的:分位數轉換和冪函式轉換。分位數和冪變換都基於特徵的單調變換，從而保持了每個特徵值的秩。

機器學習sklearn（十四）：特徵工程（五）特徵編碼（二）特徵雜湊(二)

特徵雜湊（相當於一種降維技巧）類FeatureHasher是一種高速，低記憶體消耗的向量化方法，它使用了特徵雜湊技術，或可稱為 “雜湊法” （hashing trick）的技術。代替在構建訓練中遇到的特徵的雜湊表，如向量化所做

機器學習sklearn（十五）：特徵工程（六）特徵選擇（一）主成分分析PCA

1. 準確的PCA和概率解釋（Exact PCA and probabilistic interpretation） PCA 用於對具有一組連續正交分量(Orthogonal component譯註: 或譯為正交成分,下出現成分和分量是同意詞)的多變數資料集進行方差最大化的

機器學習sklearn（十六）：特徵工程（七）特徵選擇（二）卡方選擇（一）卡方檢驗

卡方檢驗，統計學的方法，現在機器學習看變數的時候也會用到。很多不知道的人，一聽到這個名詞，會馬上聯想到，

機器學習sklearn（二十）：特徵工程（十一）特徵編碼（五）類別特徵編碼（三）獨熱編碼 OneHotEncoder

另外一種將標稱型特徵轉換為能夠被scikit-learn中模型使用的編碼是one-of-K，又稱為獨熱碼或dummy encoding。這種編碼型別已經在類OneHotEncoder中實現。該類把每一個具有n_categories個可能取值的categorical特徵

機器學習sklearn（十九）：特徵工程（十）特徵編碼（四）類別特徵編碼（二）標籤編碼 OrdinalEncoder

在機器學習中，特徵經常不是連續的數值型的而是標稱型的(categorical)。舉個示例，一個人的樣本具有特徵[\"male\", \"female\"],[\"from Europe\", \"from US\", \"from Asia\"],[\"uses Firefox\", \"uses Chrome\"

機器學習sklearn（二十一）：模型評估（一）交叉驗證：評估估算器的表現（一）簡介

學習預測函式的引數，並在相同資料集上進行測試是一種錯誤的做法: 一個僅給出測試用例標籤的模型將會獲得極高的分數，但對於尚未出現過的資料它則無法預測出任何有用的資訊。這種情況稱為overfitting（過擬合）. 為

機器學習sklearn（二十二）：模型評估（二）交叉驗證：評估估算器的表現（二）計算交叉驗證的指標

計算交叉驗證的指標使用交叉驗證最簡單的方法是在估計器和資料集上呼叫cross_val_score輔助函式。

機器學習sklearn（三十）：模型儲存

在訓練完 scikit-learn 模型之後，最好有一種方法來將模型持久化以備將來使用，而無需重新訓練。以下部分為您提供了有關如何使用 pickle 來持久化模型的示例。在使用 pickle 序列化時，我們還將回顧一些安全性和可

機器學習sklearn（三十一）：Pipeline（管道）和 FeatureUnion（特徵聯合）: 合併的評估器

變換器(Transformers)通常與分類器，迴歸器或其他的學習器組合在一起以構建複合估計器。完成這件事的最常用工具是Pipeline。 Pipeline 經常與 FeatureUnion 結合起來使用。 FeatureUnion 用於將變換器(transformers

機器學習sklearn（三十二）：演算法例項（一）分類（一）分類決策樹（一）簡介

1 概述 1.1 決策樹是如何工作的　　決策樹（Decision Tree）是一種非引數的有監督學習方法，它能夠從一系列有特徵和標籤的資料中總結出決策規則，並用樹狀圖的結構來呈現這些規則，以解決分類和迴歸問題。決策樹演

機器學習sklearn（三十四）：演算法例項（三）迴歸（一）決策樹迴歸（一） DecisionTreeRegressor

classsklearn.tree.DecisionTreeRegressor(*,criterion=\'mse\',splitter=\'best\',max_depth=None,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features=None,random_state=None,max

機器學習sklearn（三十七）：演算法例項（六）分類（四）分類決策樹（四）Bonus Chapter I 例項：分類樹在合成數集上的表現

我們在紅酒資料集上畫出了一棵樹，並且展示了多個引數會對樹形成這樣的影響，接下來，我們將在不同結構的資料集上測試一下決策樹的效果，讓大家更好地理解決策樹。

機器學習sklearn（十八）： 特徵工程（九）特徵編碼（三）類別特徵編碼（一）標籤編碼 LabelEncoder

相關推薦

機器學習sklearn（十八）：特徵工程（九）特徵編碼（三）類別特徵編碼（一）標籤編碼 LabelEncoder