使用sklearn之LabelEncoder將Label標準化

阿新 • • 發佈：2019-01-29

LabelEncoder可以將標籤分配一個0—n_classes-1之間的編碼
將各種標籤分配一個可數的連續編號：

>>> from sklearn import preprocessing
>>> le = preprocessing.LabelEncoder()
>>> le.fit([1, 2, 2, 6])
LabelEncoder()
>>> le.classes_
array([1, 2, 6])
>>> le.transform([1, 1, 2, 6]) # Transform Categories Into Integers 

array([0, 0, 1, 2], dtype=int64)
>>> le.inverse_transform([0, 0, 1, 2]) # Transform Integers Into Categories
array([1, 1, 2, 6])

>>> le = preprocessing.LabelEncoder()
>>> le.fit(["paris", "paris", "tokyo", "amsterdam"])
LabelEncoder()
>>> list(le.classes_)
['amsterdam' 
, 'paris', 'tokyo']
>>> le.transform(["tokyo", "tokyo", "paris"]) # Transform Categories Into Integers
array([2, 2, 1], dtype=int64)
>>> list(le.inverse_transform([2, 2, 1])) #Transform Integers Into Categories
['tokyo', 'tokyo', 'paris']

將DataFrame中的所有ID標籤轉換成連續編號：

from sklearn.preprocessing import 
 LabelEncoder
import numpy as np
import pandas as pd
df=pd.read_csv('testdata.csv',sep='|',header=None)

    0   1   2   3   4   5
0   37  52  55  50  38  54
1   17  32  20  9   6   48
2   28  10  56  51  45  16
3   27  49  41  30  53  19
4   44  29  8   1   46  13
5   11  26  21  14  7   33
6   0   39  22  33  35  43
7   18  15  47  5   25  34
8   23  2   4   9   3   31
9   12  57  36  40  42  24

le = LabelEncoder()
le.fit(np.unique(df.values))
df.apply(le.transform)

    0   1   2   3   4   5
0   37  52  55  50  38  54
1   17  32  20  9   6   48
2   28  10  56  51  45  16
3   27  49  41  30  53  19
4   44  29  8   1   46  13
5   11  26  21  14  7   33
6   0   39  22  33  35  43
7   18  15  47  5   25  34
8   23  2   4   9   3   31
9   12  57  36  40  42  24

將DataFrame中的每一行ID標籤分別轉換成連續編號：

import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.pipeline import Pipeline


class MultiColumnLabelEncoder:
    def __init__(self,columns = None):
        self.columns = columns # array of column names to encode

    def fit(self,X,y=None):
        return self # not relevant here

    def transform(self,X):
        '''
        Transforms columns of X specified in self.columns using
        LabelEncoder(). If no columns specified, transforms all
        columns in X.
        '''
        output = X.copy()
        if self.columns is not None:
            for col in self.columns:
                output[col] = LabelEncoder().fit_transform(output[col])
        else:
            for colname,col in output.iteritems():
                output[colname] = LabelEncoder().fit_transform(col)
        return output

    def fit_transform(self,X,y=None):
        return self.fit(X,y).transform(X)

MultiColumnLabelEncoder(columns = [0, 1, 2, 3, 4, 5]).fit_transform(df)

或者

df.apply(LabelEncoder().fit_transform)

    0   1   2   3   4   5
0   8   8   8   7   5   9
1   3   5   2   2   1   8
2   7   1   9   8   7   1
3   6   7   6   4   9   2
4   9   4   1   0   8   0
5   1   3   3   3   2   5
6   0   6   4   5   4   7
7   4   2   7   1   3   6
8   5   0   0   2   0   4
9   2   9   5   6   6   3

# Create some toy data in a Pandas dataframe
fruit_data = pd.DataFrame({
    'fruit':  ['apple','orange','pear','orange'],
    'color':  ['red','orange','green','green'],
    'weight': [5,6,3,4]
})

    color   fruit   weight
0   red     apple   5
1   orange  orange  6
2   green   pear    3
3   green   orange  4

MultiColumnLabelEncoder(columns = ['fruit','color']).fit_transform(fruit_data)

或者

fruit_data[['fruit','color']]=fruit_data[['fruit','color']].apply(LabelEncoder().fit_transform)

    color   fruit   weight
0   2       0       5
1   1       1       6
2   0       2       3
3   0       1       4

使用sklearn之LabelEncoder將Label標準化

LabelEncoder可以將標籤分配一個0—n_classes-1之間的編碼將各種標籤分配一個可數的連續編號： >>> from sklearn import prepro

利用sklearn的LabelEncoder實現標準化標籤

sklearn.preprocessing.LabelEncoder()：標準化標籤，將標籤值統一轉換成range(標籤值個數-1)範圍內# coding:utf-8 from sklearn impo

利用sklearn的LabelEncoder對標簽進行數字化編碼

spa att sed read guide example log cat lib from sklearn.preprocessing import LabelEncoder def gen_label_encoder(): labels =

python - pandas或者sklearn中如何將字符形式的標簽數字化

tail article end post blog 數字化 das body 數字參考：http://www.php.cn/wenda/91257.html 　　　　https://www.cnblogs.com/king-lps/p/7846414.html 　　　　

11.sklearn.preprocessing.LabelEncoder的作用

ans from pro nsf encoder RM range code mst In [5]: from sklearn import preprocessing ...: le =preprocessing.LabelEncoder() ...

Selenium基礎之--01(將瀏覽器最大化,設置瀏覽器固定寬、高,操控瀏覽器前進、後退)

TP IV sleep .get class 需求靈活屏幕 web自動化 1，將瀏覽器最大化我們知道調用啟動的瀏覽器不是全屏的，這樣不會影響腳本的執行，但是有時候會影響我們“觀看”腳本的執行。 coding=utf-8 from selenium import web

日常操作之如何將桌面右下角圖標收到一起

定義技術分享分享分享圖片如何 com info 技術 -- 步驟： 1、在桌面最下面一欄點擊右鍵-----屬性 2、屬性頁面：選擇“自定義” 3、自定義界面：具體操作如圖日常操作之如何將桌面右下角圖標收到一起

ES6 系列之 Babel 將 Async 編譯成了什麼樣子

前言本文就是簡單介紹下 Async 語法編譯後的程式碼。 Async const fetchData = (data) => new Promise((resolve) => setTimeout(resolve, 1000, data + 1)) const fetchValue =

Jmeter關聯之如何將介面的返回值作為下個介面的引數

介面測試很多時候用到B介面的引數是A介面的返回值，這個時候就需要用到關聯。儲存A介面的返回值，B介面的引數直接關聯就OK了，如何儲存B介面的返回值，我一般用到的是正則表示式，一個是提取方便，二是公式簡單便於理解；但是jmeter的正則表示式需要外掛才能使用。 1.Jmeter目錄結構介紹

C# 公共控制元件之NotifyIcon 將視窗最小化到托盤

1、設定窗體和notifyIcon屬性 notifyIcon ，新增contextMenuStrip控制元件並整合到notifyIcon 的ContextMenuStrip上。窗體 2、程式碼 using System; usi

sklearn之貝葉斯分類器使用

貝葉斯分類器原理：基於先驗概率P(Y)，利用貝葉斯公式計算後驗概率P(Y/X)（該物件屬於某一類的概率），選擇具有最大後驗概率的類作為該物件所屬類特點：資料可離散可連續；對資料缺失、噪音不敏感；若屬性相關性小，分類效果好，相關也不低於決策樹樸素貝葉斯演算法學習的內

sklearn之模型評估指標總結歸納

文章目錄機器學習模型評估分類模型迴歸模型聚類模型交叉驗證中指定scoring引數網格搜尋中應用機器學習模型評估以下方法，sklearn中都在

機器學習實踐（七）—sklearn之K-近鄰演算法

一、K-近鄰演算法(KNN)原理 K Nearest Neighbor演算法又叫KNN演算法，這個演算法是機器學習裡面一個比較經典的演算法，總體來說KNN演算法是相對比較容易理解的演算法定義如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的

機器學習實踐（六）—sklearn之轉換器和估計器

一、sklearn轉換器想一下之前做的特徵工程的步驟？ 1 例項化 (例項化的是一個轉換器類(Transformer)) 2 呼叫fit_transform(對於文件建立分類詞頻矩陣，不能同時呼叫) 我們

機器學習實踐（三）—sklearn之特徵工程

一、特徵工程介紹 1. 為什麼需要特徵工程 Andrew Ng ： “Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learnin

機器學習實踐（二）—sklearn之資料集

一、可用資料集 Kaggle網址：https://www.kaggle.com/datasets UCI資料集網址： http://archive.ics.uci.edu/ml/ scikit-learn網址：http://scikit-learn.org/sta

機器學習實踐（一）—sklearn之概述

1956年，人工智慧元年。人類能夠創造出人類還未知的東西。這未知的東西人類能夠保證它不誤入歧途嗎。一、機器學習和人工智慧，深度學習的關係機器學習是人工智慧的一個實現途徑深度學習是機器學習的一個方法發展而來二、機器學習，深度

機器學習實踐（五）—sklearn之特徵降維

一、特徵降維概述為什麼要對特徵進行降維處理如果特徵本身存在問題或者特徵之間相關性較強，對於演算法學習預測會影響較大什麼是降維降維是指在某些限定條件下，降低隨機變數(特徵)個數，得到一組“不

機器學習實踐（四）—sklearn之特徵預處理

一、特徵預處理概述什麼是特徵預處理 # scikit-learn的解釋 provides several common utility functions and transformer classes to change raw feature vectors into

sklearn之Cross-validation、GridSearchCV，以及訓練集（train）、測試集（test）、驗證集（validate）的辨析

1.訓練集（train）、測試集（test）、驗證集（validate）對於初學者而言，訓練集、測試集、驗證集這三個詞可能會讓你很迷糊，特別是後兩者。這裡我儘量用簡單的話說一下我自己的理解，希望可以講明白：對於機器學習模型訓練而言，

使用sklearn之LabelEncoder將Label標準化

相關推薦