資料特徵的編碼方式

阿新 • • 發佈：2021-10-29

資料的探索型分析

資料的特徵探索

資料探索性分析需要從兩種方面來看：

欄位vs標籤

欄位vs欄位

資料分佈分析

有可能因為訓練集和驗證集分佈不一樣，比如出現本地和線上得分變換趨勢相反的情況。

可以構造一個分類器區分訓練集和驗證集，如果無法分辨樣本（AUC接近0.5)說明資料分佈一致，否則，說明訓練集和測試集分佈不太一致。

特徵工程基礎——特徵型別及處理方法

類別特徵

在任何時候都要進行處理

高基數（類別多）會帶來離散資料

很難進行缺失值填充

分成有序和無序的

處理過程

獨熱編碼

優點：簡單，能將類別特徵進行有效編碼

缺點：會帶來維度爆炸和特徵稀疏

標籤編碼

優點：簡單，不新增類別的維度

缺點：會改變原始標籤的次序關係

適合在樹模型中使用。數模型中labelEncoder甚至優於獨熱編碼

方法：pandas中的facotrize或sklearn上的LABELENCODER

順序編碼

按照類別大小關係進行編碼

優點：簡單，不增加類別的維度

缺點：需要人工知識且

df[feature].map({對映的字典})必須覆蓋所有種類，但是這個方法需要覆蓋所有類別

頻率編碼

將出現或次數頻率作為編碼

Mean/Target編碼

將類別給出的標籤概率作為編碼，此時最後一列的含義是以該國家分類下target的平均值

數值特徵處理方法

數值特徵時最常見的連續特徵，容易出現異常值和離群點

Round

形式：將數值進行縮放、取整，可以保留大部分資訊

Binning將數值進行分箱

就和分段函式一樣

特徵過程程式碼處理速查

構造實驗資料集如下所示：

df = pd.DataFrame({
    'student_id': [1,2,3,4,5,6,7],
    'country': ['China', 'USA', 'UK', 'Japan', 'Korea', 'China', 'USA'],
    'education': ['Master', 'Bachelor', 'Bachelor', 'Master', 'PHD', 'PHD', 'Bachelor'],
    'target': [1, 0, 1, 0, 1, 0, 1]
})

下面給出其特徵編碼方式，作為程式碼參考：

Onehot_code

首先我們對教育編碼

pd.get_dummies(df, columns=['education'])

建議使用pandas庫，因為操作很簡單

還可以用sklearn中的OneHotEncoder方法，操作較為複雜

這裡最後將得出的獨熱特徵寫入df

from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder()
labels = []
for i in range(len(df['country'].unique())):
    label = 'country_'+str(i)
    labels.append(label)
df[labels] = ohe.fit_transform(df[['country']]).toarray()

LabelEncoder

進行型別編碼，可以使用LabelEncoder庫

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['country_LabelEncoder'] = le.fit_transform(df['country'])
df.head(10)

還可以使用pandas中自帶的方法

df['country_LabelEncoder'] = pd.factorize(df['country'])[0]
df.head(10)

其中，pd.factorize方法得出一個這樣的結果

[0]為編碼號，[1]為編碼對應的型別

Ordinal Encoding

這裡必須序號和所有出現的評級相對應，不然會報錯

df['education'] = df['education'].map(
                    {'Bachelor': 1, 
                    'Master': 2, 
                    'PHD': 3})
df.head(10)

二進位制編碼

import category_encoders as ce
encoder = ce.BinaryEncoder(cols= ['country'])

pd.concat([df, encoder.fit_transform(df['country']).iloc[:, 1:]], axis=1)

Frequency Encoding、Count Encoding

注意這裡.map函式的使用

這裡是把標籤出現的頻率作為特徵進行編碼

df['country_count'] = df['country'].map(df['country'].value_counts()) / len(df)
df.head(10)

df['country_count'] = df['country'].map(df['country'].value_counts())
df.head(10)

Mean/Target Encoding

這裡是將標籤的平均值作為編碼（注意，這種方法會將標籤資訊洩露）

df['country_target'] = df['country'].map(df.groupby(['country'])['target'].mean())
df.head(10)

很喜歡聽到一個老師說的“半年理論”，現在做出的努力，一般要在半年的沉澱之後，才能出結果，所以在遇到瓶頸之時，不妨再努力半年

預習非數值資料的編碼方式

1.非數值資料的編碼方式：用邏輯值表示：是邏輯資料的表示，只能參加邏輯運算。

高效的資料壓縮編碼方式 Protobuf

文章來源https://halfrost.com/protobuf_encode/ 一. protocol buffers 是什麼？ Protocol buffers 是一種語言中立，平臺無關，可擴充套件的序列化資料的格式，可用於通訊協議，資料儲存等。

非數值資料的編碼方式

非數值資料的編碼方式邏輯資料，字元資料，漢字資料，影象資料，聲音資料，等等，不是表示數字的資料都是非數值資料。

#預習非數值資料的編碼方式

1.邏輯值 n 位二進位制數可表示 n 個邏輯值邏輯資料只能參加邏輯運算邏輯資料和數值資料都是一串0/1序列

非數值資料的編碼方式預習

非數值資料的編碼方式邏輯值：意為邏輯狀態下賦予的真或者假。邏輯值有兩種情況：成立和不成立。成立的時候我們說邏輯值為真，使用True或1表示，不成立的時候我們說邏輯值為假，使用false或0表示。在程式設計裡面，

資料特徵的編碼方式

資料的探索型分析資料的特徵探索資料探索性分析需要從兩種方面來看：欄位vs標籤

資料編碼常用的幾種編碼方式

1）不歸零制碼（NRZ：Non-Return to Zero） <?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

IoTDB資料型別與編碼方式

技術標籤：DBIoTDB資料型別IoTD編碼方式資料型別 IoTDB總共支援六種資料型別 BOOLEAN（布林值） INT32（整數） INT64（長整數） FLOAT（單精度浮點數） DOUBLE（雙精度浮點數） TEXT（字串）

Scikit-learn資料預處理分類變數編碼之欄位特徵編碼

技術標籤：機器學習 Scikit-learn資料預處理分類變數編碼之欄位特徵編碼 1 宣告

opencv3/C++ HOG特徵提取方式

HOG特徵 HOG(Histograms of Oriented Gradients)梯度方向直方圖通過利用梯度資訊能反映影象目標的邊緣資訊並通過區域性梯度的大小將影象區域性的外觀和形狀特徵化．在論文Histograms of Oriented Gradients for Hum

opencv3/C++ FLANN特徵匹配方式

使用函式detectAndCompute(）檢測關鍵點並計算描述符函式detectAndCompute(）引數說明：

為何不要在MySQL中使用UTF-8編碼方式詳解

MySQL的UTF-8編碼方式 MySQL 從 4.1 版本開始支援 UTF-8，也就是 2003 年，然而目前流行的UTF-8 標準（RFC 3629）是在此之後規定的。正因此，才造就了MySQL中的UTF-8與我們日常開發中的UTF-8不一致，從到導致了些問

淺談redis記憶體資料的持久化方式

一、概述 Redis的強大效能很大程度上都是因為所有資料都是儲存在記憶體中的，然而當Redis重啟後，所有儲存在記憶體中的資料將會丟失，在很多情況下是無法容忍這樣的事情的。所以，我們需要將記憶體中的資料持久化！典

Pytorch 資料載入與資料預處理方式

資料載入分為載入torchvision.datasets中的資料集以及載入自己使用的資料集兩種情況。

使用python快速實現不同機器間資料夾共享方式

Python有一個比較好用的功能，那就是很方便的實現共享資料夾。首先兩臺主機都需要安裝python，在未建立邏輯連線之前它們是不區分主從機的。

Python3和pyqt5實現控制元件資料動態顯示方式

最近筆者在做一個pyqt5的介面，由於在日常生活中，一些實際運用的場合都需要對資料進行實時的重新整理，例如對某個數值的監控，水溫，室溫的監控等等，都需要實時的重新整理控制元件顯示的資料。

numpy.linalg.eig() 計算矩陣特徵向量方式

在PCA中有遇到，在這裡記錄一下計算矩陣的特徵值個特徵向量，下面給出幾個示例程式碼：

tensorflow tf.train.batch之資料批量讀取方式

在進行大量資料訓練神經網路的時候，可能需要批量讀取資料。於是參考了這篇文章的程式碼，結果發現數據一直批量迴圈輸出，不會在資料的末尾自動停止。

微信小程式8種資料通訊的方式小結

前言資料通訊在開發中是必不可少的一個環節，也是我們必須掌握的知識。知道得越多的資料通訊方式，實現業務會更加得心應手。

將labelme格式資料轉化為標準的coco資料集格式方式

labelme標註影象生成的json格式： { \"version\": \"3.11.2\",\"flags\": {},\"shapes\": [# 每個物件的形狀

資料特徵的編碼方式

資料的探索型分析

資料的特徵探索

資料分佈分析

特徵工程基礎——特徵型別及處理方法

類別特徵

處理過程

數值特徵處理方法

特徵過程程式碼處理速查

Onehot_code

LabelEncoder

Ordinal Encoding

二進位制編碼

Frequency Encoding、Count Encoding

Mean/Target Encoding

相關推薦