機器學習sklearn（44）：資料處理（七）資料無量綱化/缺失值

阿新 • • 發佈：2021-06-24

1 資料無量綱化

from sklearn.preprocessing import MinMaxScaler
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
#不太熟悉numpy的小夥伴，能夠判斷data的結構嗎？
#如果換成表是什麼樣子？
import pandas as pd
pd.DataFrame(data) #實現歸一化
scaler = MinMaxScaler() #例項化
scaler = scaler.fit(data) #fit，在這裡本質是生成min(x)和max(x)
result = scaler.transform(data) # 
通過介面匯出結果
result
result_ = scaler.fit_transform(data) #訓練和匯出結果一步達成
scaler.inverse_transform(result) #將歸一化後的結果逆轉
#使用MinMaxScaler的引數feature_range實現將資料歸一化到[0,1]以外的範圍中
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler = MinMaxScaler(feature_range=[5,10]) #依然例項化
result = scaler.fit_transform(data) #fit_transform一步匯出結果 

result
#當X中的特徵數量非常多的時候，fit會報錯並表示，資料量太大了我計算不了
#此時使用partial_fit作為訓練介面
#scaler = scaler.partial_fit(data)

from sklearn.preprocessing import StandardScaler
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler = StandardScaler() #例項化
scaler.fit(data) #fit，本質是生成均值和方差
scaler.mean_ #檢視均值的屬性mean_
scaler.var_ # 
檢視方差的屬性var_
x_std = scaler.transform(data) #通過介面匯出結果
x_std.mean() #匯出的結果是一個數組，用mean()檢視均值
x_std.std() #用std()檢視方差
scaler.fit_transform(data) #使用fit_transform(data)一步達成結果
scaler.inverse_transform(x_std) #使用inverse_transform逆轉標準化

2 缺失值

import pandas as pd
data = pd.read_csv(r"C:\work\learnbetter\micro-class\
 week 3 Preprocessing\Narrativedata.csv",index_col=0)
data.head()

data.info()
#填補年齡
Age = data.loc[:,"Age"].values.reshape(-1,1) #sklearn當中特徵矩陣必須是二維
Age[:20]
from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer() #例項化，預設均值填補
imp_median = SimpleImputer(strategy="median") #用中位數填補
imp_0 = SimpleImputer(strategy="constant",fill_value=0) #用0填補
imp_mean = imp_mean.fit_transform(Age) #fit_transform一步完成調取結果
imp_median = imp_median.fit_transform(Age)
imp_0 = imp_0.fit_transform(Age)
imp_mean[:20]
imp_median[:20]
imp_0[:20] #在這裡我們使用中位數填補Age
data.loc[:,"Age"] = imp_median
data.info()
#使用眾數填補Embarked
Embarked = data.loc[:,"Embarked"].values.reshape(-1,1)

imp_mode = SimpleImputer(strategy = "most_frequent")
data.loc[:,"Embarked"] = imp_mode.fit_transform(Embarked)
data.info()

機器學習sklearn（44）：資料處理（七）資料無量綱化/缺失值

1 資料無量綱化 from sklearn.preprocessing import MinMaxScaler data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]

C#中的深度學習（二）：預處理識別硬幣的資料集

在文章中，我們將對輸入到機器學習模型中的資料集進行預處理。這裡我們將對一個硬幣資料集進行預處理，以便以後在監督學習模型中進行訓練。在機器學習中預處理資料集通常涉及以下任務:

機器學習sklearn（五）：資料集處理（二）缺失值處理

6.4.Imputation of missing values For various reasons, many real world datasets contain missing values, often encoded as blanks, NaNs or other placeholders. Such datasets however are incompatible with

機器學習sklearn（五）：資料處理（二）缺失值處理

來源 https://www.cnblogs.com/B-Hanan/articles/12774433.html 1 單變數缺失 import numpy as np from sklearn.impute import SimpleImputer

機器學習sklearn（六）：資料處理（三）數值型資料處理（一）歸一化( MinMaxScaler/MaxAbsScaler)

來源：https://www.cntofu.com/book/170/docs/59.md 1 將特徵縮放至特定範圍內一種標準化是將特徵縮放到給定的最小值和最大值之間，通常在零和一之間，或者也可以將每個特徵的最大絕對值轉換至單位大小。可以分別使

機器學習sklearn（七）：資料處理（四）數值型資料處理（二）標準化 StandardScaler

Thepreprocessingmodule provides theStandardScalerutility class, which is a quick and easy way to perform the following operation on an array-like dataset:

機器學習sklearn（十）：資料處理（五）自定義轉換器

在機器學習中，想要將一個已有的 Python 函式轉化為一個轉換器來協助資料清理或處理。可以使用FunctionTransformer從任意函式中實現一個轉換器。例如，在一個管道中構建一個實現日誌轉換的轉化器，這樣做:

機器學習sklearn（十一）：資料處理（六）非線性轉換

有兩種型別的轉換是可用的:分位數轉換和冪函式轉換。分位數和冪變換都基於特徵的單調變換，從而保持了每個特徵值的秩。

機器學習sklearn（八）：特徵工程（一）特徵離散化（一）K-bins 離散化

離散化 (Discretization)(有些時候叫量化(quantization) 或裝箱(binning)) 提供了將連續特徵劃分為離散特徵值的方法。某些具有連續特徵的資料集會受益於離散化，因為離散化可以把具有連續屬性的資料集變換成只有

機器學習sklearn（九）：特徵工程（二）特徵離散化（二）特徵二值化

特徵二值化是將數值特徵用閾值過濾得到布林值的過程。這對於下游的概率型模型是有用的，它們假設輸入資料是多值伯努利分佈(Bernoulli distribution)。例如這個示例sklearn.neural_network.BernoulliRBM。

機器學習sklearn（十二）：特徵工程（三）特徵組合與交叉（一）多項式特徵

在機器學習中，通過增加一些輸入資料的非線性特徵來增加模型的複雜度通常是有效的。一個簡單通用的辦法是使用多項式特徵，這可以獲得特徵的更高維度和互相間關係的項。這在PolynomialFeatures中實現:

機器學習sklearn（十三）：特徵工程（三）特徵編碼（一）特徵雜湊(一)

來源：https://www.freesion.com/article/24301262498/ 本文介紹的是一種面對高基數類別特徵的普適性方法：特徵雜湊（FeatureHasher）。目前這只是本人的一種想法，具體效果如何還需要在實際專案中驗證。

機器學習sklearn（十四）：特徵工程（五）特徵編碼（二）特徵雜湊(二)

特徵雜湊（相當於一種降維技巧）類FeatureHasher是一種高速，低記憶體消耗的向量化方法，它使用了特徵雜湊技術，或可稱為 “雜湊法” （hashing trick）的技術。代替在構建訓練中遇到的特徵的雜湊表，如向量化所做

機器學習sklearn（十五）：特徵工程（六）特徵選擇（一）主成分分析PCA

1. 準確的PCA和概率解釋（Exact PCA and probabilistic interpretation） PCA 用於對具有一組連續正交分量(Orthogonal component譯註: 或譯為正交成分,下出現成分和分量是同意詞)的多變數資料集進行方差最大化的

機器學習sklearn（十六）：特徵工程（七）特徵選擇（二）卡方選擇（一）卡方檢驗

卡方檢驗，統計學的方法，現在機器學習看變數的時候也會用到。很多不知道的人，一聽到這個名詞，會馬上聯想到，

機器學習sklearn（十七）：特徵工程（八）特徵選擇（三）卡方選擇（二）卡方檢驗

Python有包可以直接實現特徵選擇，也就是看自變數對因變數的相關性。今天我們先開看一下如何用卡方檢驗實現特徵選擇。

機器學習sklearn（十八）：特徵工程（九）特徵編碼（三）類別特徵編碼（一）標籤編碼 LabelEncoder

LabelEncoder是一個可以用來將標籤規範化的工具類，它可以將標籤的編碼值範圍限定在[0,n_classes-1]. 這在編寫高效的Cython程式時是非常有用的.LabelEncoder可以如下使用:

機器學習sklearn（二十）：特徵工程（十一）特徵編碼（五）類別特徵編碼（三）獨熱編碼 OneHotEncoder

另外一種將標稱型特徵轉換為能夠被scikit-learn中模型使用的編碼是one-of-K，又稱為獨熱碼或dummy encoding。這種編碼型別已經在類OneHotEncoder中實現。該類把每一個具有n_categories個可能取值的categorical特徵

機器學習sklearn（十九）：特徵工程（十）特徵編碼（四）類別特徵編碼（二）標籤編碼 OrdinalEncoder

在機器學習中，特徵經常不是連續的數值型的而是標稱型的(categorical)。舉個示例，一個人的樣本具有特徵[\"male\", \"female\"],[\"from Europe\", \"from US\", \"from Asia\"],[\"uses Firefox\", \"uses Chrome\"

機器學習sklearn（二十一）：模型評估（一）交叉驗證：評估估算器的表現（一）簡介

學習預測函式的引數，並在相同資料集上進行測試是一種錯誤的做法: 一個僅給出測試用例標籤的模型將會獲得極高的分數，但對於尚未出現過的資料它則無法預測出任何有用的資訊。這種情況稱為overfitting（過擬合）. 為

機器學習sklearn（44）： 資料處理（七） 資料無量綱化/缺失值

1 資料無量綱化

2 缺失值

相關推薦

機器學習sklearn（44）：資料處理（七）資料無量綱化/缺失值