資料預處理：sklearn-preprocessing

阿新 • • 發佈：2022-01-11

```
preprocessing.scale(x)
```
去均值的中心化（均值變為0）；方差的規模化（方差變為1）。

# 這是相當好的一個功能。可以對訓練資料，測試資料應用相同的轉換，以後有新的資料進來也可以直接呼叫，不用再重新把資料放在一起再計算一次了。
# 呼叫fit方法，根據已有的訓練資料 x 建立一個標準化的轉換器
# 另外，StandardScaler()中可以傳入兩個引數：with_mean,with_std.這兩個都是布林型的引數，
# 預設情況下都是true,但也可以自定義成false.即不要均值中心化或者不要方差規模化為1.

scaler = preprocessing.StandardScaler().fit(x)

# 好了，比如現在又來了一組新的樣本，也想得到相同的轉換

new_x = [[-1., 1., 0.]]

scaler.transform(new_x)

```
x_normalized = preprocessing.normalize(x, norm='l2')
```
函式normalize 提供了一個快速有簡單的方式在一個單向量上來實現這正則化的功能。正則化有l1,l2等。

x = np.array([[1., -1., 2.],
              [2., 0., 0.],
              [0., 1., -1.]])

binarizer = preprocessing.Binarizer(threshold=1.5)
binarizer.transform(x)

將數值型的特徵資料轉換成0，1的值。

enc = preprocessing.OneHotEncoder()
enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])    # fit來學習編碼
enc.transform([[0, 1, 3]]).toarray()    # 進行編碼

OneHot Encoder

from sklearn.Imputer import SimpleImputer
imp = preprocessing.Imputer(missing_values=np.nan, strategy='mean')

x_0 =  
[[1, 2], [np.nan, 3], [7, 6]]

imp.fit(x_0)

x = [[np.nan, 2], [6, np.nan], [7, 6]]
imp.transform(x)  # 填補值為x_0各列的均值

# imp.fit_transform(x) 相當於 fit() + transform()

彌補缺失資料

sex = pd.Series(["male", "female", "female", "male"])

le = preprocessing.LabelEncoder()    #獲取一個LabelEncoder
le = le.fit(["male", "female"])      #訓練LabelEncoder, 把male編碼為0，female編碼為1
sex = le.transform(sex)    #使用訓練好的LabelEncoder對原資料進行編碼
print(sex)

# [1 0 0 1]

le.inverse_transform([1,0,0,1])

# array(['male', 'female', 'female', 'male'], dtype='<U6')

將n個類別編碼為0~n-1之間的整數（包含0和n-1）。

參考連結：

https://blog.csdn.net/weixin_40807247/article/details/82793220

https://www.cnblogs.com/sench/p/10134094.html

資料預處理：sklearn-preprocessing

preprocessing.scale(x) 去均值的中心化（均值變為0）；方差的規模化（方差變為1）。

nlp資料預處理：詞庫、詞典與語料庫

在nlp的資料預處理中，我們通常需要根據原始資料集做出如題目所示的三種結構。但是新手（我自己）常常會感到混亂，因此特意整理一下

Alink漫談(十) ：線性迴歸實現之資料預處理

Alink漫談(十) ：線性迴歸實現之資料預處理目錄 Alink漫談(十) ：線性迴歸實現之資料預處理

數學建模省賽小結：資料預處理（按照關鍵字提取行/列並進行簡單運算）

function []=datapro714()% 處理的資料截止7/14/20% [csvdata,~,rawcsvdata] = xlsread(\'who_covid_19_sit_rep_time_series.csv\');[~,~,rawconfirmed] = xlsread(\'time_series_covid_19_confirmed.csv\');[~,~,r

天池nlp新人賽_task2：資料預處理改進和一些思路

今天想解決下面幾個問題。 1.lightgbm cpu太慢了，我裝了gpu的版本，對比了之後發現訓練速度從10min縮短到8min。感覺很少，不知道是不是我姿勢錯誤。

機器學習：資料預處理之獨熱編碼（One-Hot）

前言在機器學習演算法中，我們經常會遇到分類特徵，例如：人的性別有男女，祖國有中國，美國，法國等。這些特徵值並不是連續的，而是離散的，無序的。通常我們需要對其進行特徵數字化。

機器學習：探索資料和資料預處理

機器學習之預測房價系列：機器學習之：探索資料和資料預處理探索資料是指研究資料，發現數據的結構。資料集由資料物件構成，一個數據物件代表一個實體，實體由屬性構成，屬性是一個數據欄位，表示資料物件的一個

機器學習第2篇：資料預處理（缺失值）

在真實的世界中，缺失資料是經常出現的，並可能對分析的結果造成影響。一，資料缺失的原因

safegraph資料預處理（二）：將指定資料夾內的.csv檔案合併

技術標籤：safegraphpython 將weekly-pattern-2020-12-14-backfill中的，指定資料夾內（當前層）的xxx-partx.csv合併。

safegraph資料預處理（三）：將csv檔案按指定欄位不同的值進行拆分

技術標籤：safegraphpython 將Nin1.csv按region不同的值進行拆分，儲存為xxx-region.csv，經驗證全部55個子檔案大小之和等於父檔案的大小。

Python實驗五：Pandas資料分析及資料預處理

任務一：對使用者信心更新表和登陸資訊表進行長寬轉換需求說明：通過對資料的描述性統計、以及時間資料資訊提取，分組聚合操作已經獲得了相當多的資訊，但使用者資訊更新表和登入資訊表是長表，而主表是寬表，需要通

sklearn中的資料預處理

一、資料探勘的五大流程： 1、獲取資料 2、資料預處理 3、特徵工程 4、建模，測試模型並預測結果 5、上線，驗證模型效果

Pytorch 資料載入與資料預處理方式

資料載入分為載入torchvision.datasets中的資料集以及載入自己使用的資料集兩種情況。

pytorch 影象中的資料預處理和批標準化例項

目前資料預處理最常見的方法就是中心化和標準化。中心化相當於修正資料的中心位置，實現方法非常簡單，就是在每個特徵維度上減去對應的均值，最後得到 0 均值的特徵。

pytorch資料預處理錯誤的解決

出錯： Traceback (most recent call last): File \"train.py\",line 305,in <module> train_model(model_conv,criterion,optimizer_conv,exp_lr_scheduler)

python資料預處理方式 :資料降維

資料為何要降維資料降維可以降低模型的計算量並減少模型執行時間、降低噪音變數資訊對於模型結果的影響、便於通過視覺化方式展示歸約後的維度資訊並減少資料儲存空間。因此，大多數情況下，當我們面臨高維資料時，都

python資料預處理 :資料抽樣解析

何為資料抽樣：抽樣是資料處理的一種基本方法，常常伴隨著計算資源不足、獲取全部資料困難、時效性要求等情況使用。

python資料預處理 :資料共線性處理詳解

何為共線性：共線性問題指的是輸入的自變數之間存在較高的線性相關度。共線性問題會導致迴歸模型的穩定性和準確性大大降低，另外，過多無關的維度計算也很浪費時間

python資料預處理 :樣本分佈不均的解決(過取樣和欠取樣)

何為樣本分佈不均：樣本分佈不均衡就是指樣本差異非常大，例如共1000條資料樣本的資料集中，其中佔有10條樣本分類，其特徵無論如何你和也無法實現完整特徵值的覆蓋，此時屬於嚴重的樣本分佈不均衡。

spark | 手把手教你用spark進行資料預處理

本文始發於個人公眾號：TechFlow，原創不易，求個關注今天是spark專題的第七篇文章，我們一起看看spark的資料分析和處理。

資料預處理：sklearn-preprocessing

相關推薦