sklearn特徵工程

阿新 • • 發佈：2022-02-10

1 特徵預處理API

sklearn.preprocessing

1.1 歸一化

定義：

通過對原始資料進行變換把資料對映到(預設為[0,1])之間

公式：

mx : 指定範圍的最大值

mi: 指定範圍的最小值

API

sklearn.preprocessing.MinMaxScaler (feature_range=(0,1)… )
- MinMaxScalar.fit_transform(X)
  - X:numpy array格式的資料[n_samples,n_features]
- 返回值：轉換後的形狀相同的array

案例分析：

我們對以下資料進行運算，在dating.txt中。儲存的就是之前的約會物件資料

milage,Liters,Consumtime,target
40920,8.326976,0.953952,3
14488,7.153469,1.673904,2
26052,1.441871,0.805124,1
75136,13.147394,0.428964,1
38344,1.669788,0.134296,1

分析

1、例項化MinMaxScalar

2、通過fit_transform轉換

import pandas as pd
from sklearn.preprocessing import MinMaxScaler


def minmax_demo():
    """
    歸一化演示
    :return: None
    """
    data = pd.read_csv("./test.csv")
    print(data)
    # 1、例項化一個轉換器類
    transfer = MinMaxScaler(feature_range=(2, 3))
    # 2、呼叫fit_transform
    data = transfer.fit_transform(data[['milage', 'Liters', 'Consumtime']])
    print("最小值最大值歸一化處理的結果：\n", data)

    return None


# 歸一化
minmax_demo()

返回結果：

     milage     Liters  Consumtime  target
0     40920   8.326976    0.953952       3
1     14488   7.153469    1.673904       2
2     26052   1.441871    0.805124       1
3     75136  13.147394    0.428964       1
..      ...        ...         ...     ...
998   48111   9.134528    0.728045       3
999   43757   7.882601    1.332446       3

[1000 rows x 4 columns]
最小值最大值歸一化處理的結果：
 [[ 2.44832535  2.39805139  2.56233353]
 [ 2.15873259  2.34195467  2.98724416]
 [ 2.28542943  2.06892523  2.47449629]
 ..., 
 [ 2.29115949  2.50910294  2.51079493]
 [ 2.52711097  2.43665451  2.4290048 ]
 [ 2.47940793  2.3768091   2.78571804]]

歸一化總結：

注意最大值最小值是變化的，另外，最大值與最小值非常容易受異常點影響，所以這種方法魯棒性較差，只適合傳統精確小資料場景。

1.2 標準化

定義：

通過對原始資料進行變換把資料變換到均值為0,標準差為1範圍內

公式：

對於歸一化來說：如果出現異常點，影響了最大值和最小值，那麼結果顯然會發生改變
對於標準化來說：如果出現異常點，由於具有一定資料量，少量的異常點對於平均值的影響並不大，從而方差改變較小。

**API: **

sklearn.preprocessing.StandardScaler( )
- 處理之後每列來說所有資料都聚集在均值0附近標準差差為1
- StandardScaler.fit_transform(X)
  - X:numpy array格式的資料[n_samples,n_features]
- 返回值：轉換後的形狀相同的array

案例分析：

分析

1、例項化StandardScaler

2、通過fit_transform轉換

def stand_demo():
    """
    標準化演示
    :return: None
    """
    data = pd.read_csv("./test.csv")
    print(data)
    # 1、例項化一個轉換器類
    transfer = StandardScaler()
    # 2、呼叫fit_transform
    data = transfer.fit_transform(data[['milage', 'Liters', 'Consumtime']])
    print("標準化的結果:\n", data)
    print("每一列特徵的平均值：\n", transfer.mean_)
    print("每一列特徵的方差：\n", transfer.var_)

    return None

stand_demo()

返回結果：

   milage     Liters  Consumtime  target
0   40920   8.326976    0.953952       3
1   14488   7.153469    1.673904       2
2   26052   1.441871    0.805124       1
3   75136  13.147394    0.428964       1
4   38344   1.669788    0.134296       1
標準化的結果:
 [[ 0.0947602   0.44990013  0.29573441]
 [-1.20166916  0.18312874  1.67200507]
 [-0.63448132 -1.11527928  0.01123265]
 [ 1.77297701  1.54571769 -0.70784025]
 [-0.03158673 -1.06346729 -1.27113187]]
每一列特徵的平均值：
 [3.8988000e+04 6.3478996e+00 7.9924800e-01]
每一列特徵的方差：
 [4.15683072e+08 1.93505309e+01 2.73652475e-01]

標準化總結:

在已有樣本足夠多的情況下比較穩定，適合現代嘈雜大資料場景。

sklearn特徵工程

1 特徵預處理API sklearn.preprocessing 1.1 歸一化定義：通過對原始資料進行變換把資料對映到(預設為[0,1])之間

機器學習sklearn（八）：特徵工程（一）特徵離散化（一）K-bins 離散化

離散化 (Discretization)(有些時候叫量化(quantization) 或裝箱(binning)) 提供了將連續特徵劃分為離散特徵值的方法。某些具有連續特徵的資料集會受益於離散化，因為離散化可以把具有連續屬性的資料集變換成只有

機器學習sklearn（九）：特徵工程（二）特徵離散化（二）特徵二值化

特徵二值化是將數值特徵用閾值過濾得到布林值的過程。這對於下游的概率型模型是有用的，它們假設輸入資料是多值伯努利分佈(Bernoulli distribution)。例如這個示例sklearn.neural_network.BernoulliRBM。

機器學習sklearn（十二）：特徵工程（三）特徵組合與交叉（一）多項式特徵

在機器學習中，通過增加一些輸入資料的非線性特徵來增加模型的複雜度通常是有效的。一個簡單通用的辦法是使用多項式特徵，這可以獲得特徵的更高維度和互相間關係的項。這在PolynomialFeatures中實現:

機器學習sklearn（十三）：特徵工程（三）特徵編碼（一）特徵雜湊(一)

來源：https://www.freesion.com/article/24301262498/ 本文介紹的是一種面對高基數類別特徵的普適性方法：特徵雜湊（FeatureHasher）。目前這只是本人的一種想法，具體效果如何還需要在實際專案中驗證。

機器學習sklearn（十四）：特徵工程（五）特徵編碼（二）特徵雜湊(二)

特徵雜湊（相當於一種降維技巧）類FeatureHasher是一種高速，低記憶體消耗的向量化方法，它使用了特徵雜湊技術，或可稱為 “雜湊法” （hashing trick）的技術。代替在構建訓練中遇到的特徵的雜湊表，如向量化所做

機器學習sklearn（十五）：特徵工程（六）特徵選擇（一）主成分分析PCA

1. 準確的PCA和概率解釋（Exact PCA and probabilistic interpretation） PCA 用於對具有一組連續正交分量(Orthogonal component譯註: 或譯為正交成分,下出現成分和分量是同意詞)的多變數資料集進行方差最大化的

機器學習sklearn（十六）：特徵工程（七）特徵選擇（二）卡方選擇（一）卡方檢驗

卡方檢驗，統計學的方法，現在機器學習看變數的時候也會用到。很多不知道的人，一聽到這個名詞，會馬上聯想到，

機器學習sklearn（十七）：特徵工程（八）特徵選擇（三）卡方選擇（二）卡方檢驗

Python有包可以直接實現特徵選擇，也就是看自變數對因變數的相關性。今天我們先開看一下如何用卡方檢驗實現特徵選擇。

機器學習sklearn（十八）：特徵工程（九）特徵編碼（三）類別特徵編碼（一）標籤編碼 LabelEncoder

LabelEncoder是一個可以用來將標籤規範化的工具類，它可以將標籤的編碼值範圍限定在[0,n_classes-1]. 這在編寫高效的Cython程式時是非常有用的.LabelEncoder可以如下使用:

機器學習sklearn（二十）：特徵工程（十一）特徵編碼（五）類別特徵編碼（三）獨熱編碼 OneHotEncoder

另外一種將標稱型特徵轉換為能夠被scikit-learn中模型使用的編碼是one-of-K，又稱為獨熱碼或dummy encoding。這種編碼型別已經在類OneHotEncoder中實現。該類把每一個具有n_categories個可能取值的categorical特徵

機器學習sklearn（十九）：特徵工程（十）特徵編碼（四）類別特徵編碼（二）標籤編碼 OrdinalEncoder

在機器學習中，特徵經常不是連續的數值型的而是標稱型的(categorical)。舉個示例，一個人的樣本具有特徵[\"male\", \"female\"],[\"from Europe\", \"from US\", \"from Asia\"],[\"uses Firefox\", \"uses Chrome\"