機器學習sklearn（十三）：特徵工程（三）特徵編碼（一）特徵雜湊(一)

阿新 • • 發佈：2021-06-19

來源：https://www.freesion.com/article/24301262498/

本文介紹的是一種面對高基數類別特徵的普適性方法：特徵雜湊（FeatureHasher）。目前這只是本人的一種想法，具體效果如何還需要在實際專案中驗證。

如果說獨熱編碼後新生成的特徵數量會跟隨類別數量而變化，那麼FeatureHasher的方法所新生成的特徵數量是可以人為給定的。這樣在特徵冗餘或維度爆炸問題上就不必擔心了。個人感覺FeatureHasher有點像word2vec，都是將新特徵壓縮到一個給定的維度。

那麼接下來通過程式碼介紹一下如何使用FeatureHasher。首先要從scikit-learn中匯入：

import numpy as np
import pandas as pd
import random
from sklearn.feature_extraction import FeatureHasher

建立一個數據集，含有年齡與城市兩個特徵，可以看到城市這個特徵的屬性數量有10個。

city = ['北京', '上海', '成都', '深圳', '廣州', '杭州', '天津', '蘇州', '武漢', '西安']
 
data = pd.DataFrame({'age': np.random.randint(0, 70, size=500),
                     
'city': random.choices(city, k=500)})
data.head()

data.city.value_counts()

如果用獨熱編碼來處理的話會產生10個新特徵。那麼如果類別屬性有上百種，並且分佈比較平均那麼直接用獨熱編碼就會造成特徵冗餘或維度爆炸的問題。

dummy_data = pd.get_dummies(data, prefix='city')
dummy_data.head()

嘗試FeatureHasher的方法，指定新生成的維度為2：

fea_hs = FeatureHasher(n_features=2, input_type=' 
string')
hasherd = fea_hs.fit_transform(data.city)
print(hasherd.toarray().shape)

hash_data = pd.DataFrame(hasherd.toarray(), columns=[f'city_{i}' for i in range(2)])
 
hasher_data = pd.concat([data, hash_data], axis=1, ignore_index=False)
hasher_data.head(10)

這樣就將原本基數很大的特徵對映到了較低的維度中。

機器學習sklearn（十三）：特徵工程（三）特徵編碼（一）特徵雜湊(一)

來源：https://www.freesion.com/article/24301262498/ 本文介紹的是一種面對高基數類別特徵的普適性方法：特徵雜湊（FeatureHasher）。目前這只是本人的一種想法，具體效果如何還需要在實際專案中驗證。

機器學習sklearn（八）：特徵工程（一）特徵離散化（一）K-bins 離散化

離散化 (Discretization)(有些時候叫量化(quantization) 或裝箱(binning)) 提供了將連續特徵劃分為離散特徵值的方法。某些具有連續特徵的資料集會受益於離散化，因為離散化可以把具有連續屬性的資料集變換成只有

機器學習sklearn（九）：特徵工程（二）特徵離散化（二）特徵二值化

特徵二值化是將數值特徵用閾值過濾得到布林值的過程。這對於下游的概率型模型是有用的，它們假設輸入資料是多值伯努利分佈(Bernoulli distribution)。例如這個示例sklearn.neural_network.BernoulliRBM。

機器學習sklearn（十二）：特徵工程（三）特徵組合與交叉（一）多項式特徵

在機器學習中，通過增加一些輸入資料的非線性特徵來增加模型的複雜度通常是有效的。一個簡單通用的辦法是使用多項式特徵，這可以獲得特徵的更高維度和互相間關係的項。這在PolynomialFeatures中實現:

機器學習sklearn（十四）：特徵工程（五）特徵編碼（二）特徵雜湊(二)

特徵雜湊（相當於一種降維技巧）類FeatureHasher是一種高速，低記憶體消耗的向量化方法，它使用了特徵雜湊技術，或可稱為 “雜湊法” （hashing trick）的技術。代替在構建訓練中遇到的特徵的雜湊表，如向量化所做

機器學習sklearn（十五）：特徵工程（六）特徵選擇（一）主成分分析PCA

1. 準確的PCA和概率解釋（Exact PCA and probabilistic interpretation） PCA 用於對具有一組連續正交分量(Orthogonal component譯註: 或譯為正交成分,下出現成分和分量是同意詞)的多變數資料集進行方差最大化的

機器學習sklearn（十六）：特徵工程（七）特徵選擇（二）卡方選擇（一）卡方檢驗

卡方檢驗，統計學的方法，現在機器學習看變數的時候也會用到。很多不知道的人，一聽到這個名詞，會馬上聯想到，

機器學習sklearn（十七）：特徵工程（八）特徵選擇（三）卡方選擇（二）卡方檢驗

Python有包可以直接實現特徵選擇，也就是看自變數對因變數的相關性。今天我們先開看一下如何用卡方檢驗實現特徵選擇。

機器學習sklearn（十八）：特徵工程（九）特徵編碼（三）類別特徵編碼（一）標籤編碼 LabelEncoder

LabelEncoder是一個可以用來將標籤規範化的工具類，它可以將標籤的編碼值範圍限定在[0,n_classes-1]. 這在編寫高效的Cython程式時是非常有用的.LabelEncoder可以如下使用:

機器學習sklearn（二十）：特徵工程（十一）特徵編碼（五）類別特徵編碼（三）獨熱編碼 OneHotEncoder

另外一種將標稱型特徵轉換為能夠被scikit-learn中模型使用的編碼是one-of-K，又稱為獨熱碼或dummy encoding。這種編碼型別已經在類OneHotEncoder中實現。該類把每一個具有n_categories個可能取值的categorical特徵

機器學習sklearn（十九）：特徵工程（十）特徵編碼（四）類別特徵編碼（二）標籤編碼 OrdinalEncoder

在機器學習中，特徵經常不是連續的數值型的而是標稱型的(categorical)。舉個示例，一個人的樣本具有特徵[\"male\", \"female\"],[\"from Europe\", \"from US\", \"from Asia\"],[\"uses Firefox\", \"uses Chrome\"

機器學習sklearn（二十三）：模型評估（三）交叉驗證：評估估算器的表現（三）交叉驗證迭代器

接下來的部分列出了一些用於生成索引標號，用於在不同的交叉驗證策略中生成資料劃分的工具。

機器學習sklearn（三十一）：Pipeline（管道）和 FeatureUnion（特徵聯合）: 合併的評估器

變換器(Transformers)通常與分類器，迴歸器或其他的學習器組合在一起以構建複合估計器。完成這件事的最常用工具是Pipeline。 Pipeline 經常與 FeatureUnion 結合起來使用。 FeatureUnion 用於將變換器(transformers

機器學習sklearn（45）：特徵工程（十二）特徵編碼（六）處理分型別特徵：編碼與啞變數/處理連續型特徵：二值化與分段

1處理分型別特徵：編碼與啞變數 from sklearn.preprocessing import LabelEncoder y = data.iloc[:,-1] #要輸入的是標籤，不是特徵矩陣，所以允許一維

機器學習sklearn（47）：特徵工程（十四）特徵選擇（五）Embedded嵌入法/Wrapper包裝法

1Embedded嵌入法 from sklearn.feature_selection import SelectFromModel from sklearn.ensemble import RandomForestClassifier as RFC

機器學習sklearn（76）：演算法例項（三十三）迴歸（五）線性迴歸大家族（三）迴歸類的模型評估指標

0 簡介 1 是否預測了正確的數值 from sklearn.metrics import mean_squared_error as MSE MSE(yhat,Ytest) y.max()

機器學習sklearn（五）：資料集處理（二）缺失值處理

6.4.Imputation of missing values For various reasons, many real world datasets contain missing values, often encoded as blanks, NaNs or other placeholders. Such datasets however are incompatible with

機器學習sklearn（五）：資料處理（二）缺失值處理

來源 https://www.cnblogs.com/B-Hanan/articles/12774433.html 1 單變數缺失 import numpy as np from sklearn.impute import SimpleImputer

機器學習sklearn（六）：資料處理（三）數值型資料處理（一）歸一化( MinMaxScaler/MaxAbsScaler)

來源：https://www.cntofu.com/book/170/docs/59.md 1 將特徵縮放至特定範圍內一種標準化是將特徵縮放到給定的最小值和最大值之間，通常在零和一之間，或者也可以將每個特徵的最大絕對值轉換至單位大小。可以分別使

機器學習sklearn（七）：資料處理（四）數值型資料處理（二）標準化 StandardScaler

Thepreprocessingmodule provides theStandardScalerutility class, which is a quick and easy way to perform the following operation on an array-like dataset:

機器學習sklearn（十三）： 特徵工程（三）特徵編碼（一）特徵雜湊(一)

相關推薦

機器學習sklearn（十三）：特徵工程（三）特徵編碼（一）特徵雜湊(一)