機器學習-3.資料特徵預處理與資料降維

阿新 • • 發佈：2018-12-15

特徵預處理定義：通過特定的統計方法（數學方法）將資料轉換成演算法要求的資料。
處理方法

數值型資料：標準縮放（1.歸一化，2.標準化）；缺失值。
類別型資料：one-hot編碼。
時間型別：時間的切分。

預處理API：sklearn.preprocessing

一、特徵預處理

1. 歸一化

特點：通過對原始資料進行變換把資料對映到（預設為[0,1]）之間
公式：
$X' = \frac{x-min}{max-min}$
$X'' = X' * (mx-mi) + mi$
注：作用於每一列，max為一列的最大值，min為一列的最小值，那麼X’'為最終結果，mx，mi分別為指定區間值（預設mx為1，mi為0）
歸一化API：sklearn.preprocessing.MinMaxScaler
示例：

from sklearn.preprocessing import MinMaxScaler

def minmaxscaler():
    '''
    歸一化處理
    :return:None
    '''

    datalist = [[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]]
    mms = MinMaxScaler(feature_range=(0, 1))  # feature_range：制定縮放區間，預設為0到1
    data = mms.fit_transform(datalist)
    print(data)

    return None


if __name__ == '__main__':
    minmaxscaler()

輸出結果為：
為什麼要進行歸一化處理？
– 要使得某一個特徵對最終結果不會造成更大影響。一般在多個特徵對目標值的影響具有同樣重要的作用時進行歸一化。後期一般會根據演算法的要求是否進行歸一化，舉例：假設有三個特徵值，第一個樣本是：100，1.2，0.3；第二個樣本是 20，1.5，0.35；
大家都知道方差的公式中包含：（100-20）^2 + (1.2-1.5)^2 + (0.3-0.35)^2。這樣第一個特徵會非常明顯的對目標值具有更大的影響，因此需要進行歸一化處理。
歸一化的缺點：在某些特定場景下，最大值最小值是變化的，另外最大值和最小值非常容易受到異常點影響，所以這種方法魯棒性較差，只適合傳統精確小資料場景。
魯棒性定義：是健壯和強壯的意思。它是在異常和危險情況下系統生存的關鍵。所謂“魯棒性”，是指控制系統在一定（結構，大小）的引數攝動下，維持其它某些效能的特性。

2. 標準化

上面提到歸一化魯棒性較差，容易受到異常點的影響，標準化則解決這個問題。
特點：通過對原始資料進行變換，把資料變換到均值為0，標準差為1的範圍內。
公式：
$X' = \frac{x-mean}{\sigma}$
注：作用於每一列，mean為平均值，σ為標準差
假設var為方差， $var = \frac{(x1-mean)^2 + (x2-mean)^2 + ....}{n(每個特徵的樣本數量)}， \sigma = \sqrt{var}$
其中方差是考慮資料的穩定性。
對於歸一化來講，如果出現異常點，影響了最大值最小值，那麼結果顯然改變較大。
而對於標準化來講，如果出現異常點，因為具有一定量的資料，少量的異常點對於平均值的影響不大，因此方差改變較小，最終標準化改變也較小，因此大部分是採用標準化。
API：sklearn.preprocessing.StandardScaler
示例：

from sklearn.preprocessing import StandardScaler

def standscaler():
    '''
    標準化處理
    :return: None
    '''

    datalist = [[1,-1,3],[2,4,2],[4,6,-1]]
    stand = StandardScaler()
    data = stand.fit_transform(datalist)
    print(data)
    return None

if __name__ == '__main__':
    standscaler()

輸出結果為：
標準化總結：在已有樣本足夠多的情況下比較穩定，適合現代嘈雜大資料場景。

3. 缺失值

缺失值的處理：

刪除：如果每列或者行資料缺失值達到一定的比例，建議放棄整行或者整列。
插補：可以通過缺失值每行或者每列的平均值、中位數來填充。

API：sklearn.preprocessing.imputer
示例：

from sklearn.preprocessing import Imputer
import numpy as np

def im():
    '''
    缺失值處理
    :return:None
    '''
    datalist = [[1,2],[np.nan,3],[7,6]]
    im = Imputer(missing_values='NaN',strategy='mean',axis=0)
    data = im.fit_transform(datalist)
    print(data)

    return None

if __name__ == '__main__':
    im()

輸出結果如下：

二、資料降維

降維，維度：指特徵的數量
通俗來講，就是因為有的特徵對目標值的預測沒有意義或者部分特徵的相關度高，容易消耗計算效能，所以需要特徵的選擇，也就是資料降維。
特徵選擇主要方法（三大武器）：

Filter(過濾式)：VarianceThreshold(是通過計算方差進行的過濾，當存在很多個特徵值時，通過計算方差來分析每一個特徵值是否能很好的體現區分度，如果方差很小或者是0，那麼這樣的特徵值就不存在分析的價值了，一般可以用作預處理當中)
Embedded(嵌入式)：正則化、決策樹
Wrapper(包裹式)：不常用

對映方法（三大類）

線性對映方法：PCA(主成份分析)、LDA(線性判別分析，不常用)等
非線性對映方法：核方法：KPCA、KFDA等；二維化；流形學習：ISOMap、LLE、LPP等。
其他方法：神經網路和聚類

1. 特徵選擇-過濾式

VarianceThreshold的API：sklearn.feature_selection.VarianceThreshold
示例：

from sklearn.feature_selection import VarianceThreshold

def var():
    '''
    特徵選擇-過濾式-過濾掉低方差的特徵
    :return: None
    '''
    datalist = [[0,2,0,3],[0,1,4,3],[0,1,1,3]]
    var = VarianceThreshold(threshold=0.0) # threshold指定閥值方差,指定1時則小於等於1的方差特徵都會刪除
    data = var.fit_transform(datalist)
    print(data)

    return None


if __name__ == '__main__':
    var()

輸出結果為：

由結果看出，第一個特徵和第四個特徵，方差均為0，因此被刪除掉了。

2. 對映方法-PCA(主成份分析)

API：sklearn.decomposition
本質：PCA是一種分析、簡化資料集的技術
目的：使資料壓縮，儘可能降低原資料的維數（複雜度），損失少量資訊。
作用：可以消減迴歸分析或者聚類分析中特徵的數量。
通過一個例子來說明何為主成份分析：

如上圖所示，如何對一個立體物體進行二維表示
第一張圖明顯看不出是個什麼東西，第二張圖也一樣，第三張圖勉強能夠看出是個灑水壺但不明顯，第四張圖一眼就能看出來了。主成份分析就是如何通過低緯度表示出高緯度的資料並且主要特徵都不缺失。因此一般我們當特徵數量上百時會考慮資料的簡化，進行PCA操作，如果特徵只有幾個或幾十個一般是沒有必要去進行PCA操作的。PCA操作即會把資料改變，也會降低特徵數量。

簡易示例：

from sklearn.decomposition import PCA

def pca():
    '''
    主成份分析進行資料降維
    :return: None
    '''

    datalist = [[2,8,4,5], [6,3,0,8], [5,4,9,1]]
    pca = PCA(n_components=0.9) # n_components:可以是小數 0-1，小數代表資料保留百分之多少，根據經驗一般在90%-95%；可以是整數（一般不用），代表減少到的特徵數量
    data = pca.fit_transform(datalist)
    print(data)

    return None


if __name__ == '__main__':
    pca()

輸出結果如下：

如上圖所示，通過pca處理，將原有的四個特徵，在制定保留90%資料時，降維到兩個特徵。

3. 特徵選擇與主成份分析如何選擇

一般特徵數量較多（過百）時採用主成份分析，較少時採用特徵選擇

4. 小結

至此，特徵工程三塊知識點：1. 特徵抽取；2. 特徵預處理；3. 資料降維。已經總結完畢，後期再穿插更深入的內容。

機器學習-3.資料特徵預處理與資料降維

特徵預處理定義：通過特定的統計方法（數學方法）將資料轉換成演算法要求的資料。處理方法數值型資料：標準縮放（1.歸一化，2.標準化）；缺失值。類別型資料：one-hot編碼。時間型別：時間的切分。預處理API：sklear

機器學習——資料特徵預處理

歸一化以及標準化歸一化特定:通過對原始資料進行變換把資料對映到(預設為[0,1])之間公式:X'=(x-min)/(max-min) X''=X'*(mx-mi)+mi 注意:作用於每一列，max為一列的最大值，min為一列的最小值，那麼X''為最終結果，mx，mi分別為指定區

機器學習 --2 特徵預處理之資料將維

特徵選擇概念特徵選擇就是單純地從提取到的所有特徵中選擇部分特徵作為訓練集特徵，特徵在選擇前和選擇後可以改變值、也不改變值，但是選擇後的特徵維數肯定比選擇前小，畢竟我們只選擇了其中的一部分特徵。方差過濾式 # 按照方差過濾 from sklearn.f

機器學習 --2 特徵預處理之資料標準化

歸一化: API位置 sklearn.preprocessing 歸一化: 特點：通過對原始資料進行變換把資料對映到(預設為[0,1])之間注意也可以通過指定MinMaxScalar 裡邊的feature_range 來指定縮放的範圍示例程式碼

資料預處理與資料特徵選定

特徵工程是建立高準確度機器學習演算法的基礎，使用正確的特徵來構建正確的模型，以完成既定的任務。資料預處理需要根據資料本身的特性進行，有不同的格式和不同的要求，有缺失值要填，有無效資料的要剔除，有冗餘維的要選，這些步驟都和資料本身的特性緊密相關。資料預處理大致

第四章資料的預處理與特徵構建(續)

申請評分卡模型資料的預處理與特徵構建(續) 課程簡介：邏輯迴歸模型的特徵需要是數值型，因此類別型變數不能直接放入模型中去，需要對其進行編碼。此外，為了獲取評分模型的穩定性，建模時需要對數值型特徵做分箱的處理。最終在帶入模型之前，我們還需要對特徵做單變數與多變數分析的工作。目錄：特徵的

【機器學習】數據預處理之將類別數據轉換為數值

行數據 pri and slab form ces nbsp 遍歷 encode 在進行python數據分析的時候，首先要進行數據預處理。有時候不得不處理一些非數值類別的數據，嗯，今天要說的就是面對這些數據該如何處理。目前了解到的大概有三種方法： 1，通過LabelE

機器學習之數據預處理，Pandas讀取excel數據

修改 ould text 形式參數 indicate 索引 ive XP url Python讀寫excel的工具庫很多，比如最耳熟能詳的xlrd、xlwt，xlutils，openpyxl等。其中xlrd和xlwt庫通常配合使用，一個用於讀，一個用於寫excel。xlut

[機器學習] 3: TensorFlow練習+MNIST手寫資料集+softmax實驗（未完待續）

前言 MNIST是一個入門級的計算機視覺資料集，是NIST的一個子集，常被用於機器學習的入門實踐。它包含各種手寫數字圖片，同時也包含每一張圖片對應的標籤，告訴我們這個是數字幾。比如，上面這四張圖片的標籤分別是5，0，4，1 本文目標是練習tensorflow

Python環境安裝及資料基本預處理-大資料ML樣本集案例實戰

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。QQ郵箱地址：[email protected]，如有任何學術交流，可隨時聯絡。 1 Python環

研究基於spring通過對http請求資料的預處理（資料加解密、校驗、日誌）（2）過攔截器篇

上文已經詳細講解了如何對request進行處理，本文主要是案例演示 spring MVC 的寫法新增攔截器定義一個攔截器 public class AppRequestIntercept

ML-64: 機器學習之線性判別分析(Linear Discriminant Analysis)降維演算法+程式碼

線性判別分析(Linear Discriminant Analysis)降維演算法機器學習分為監督學習、無監督學習和半監督學習(強化學習)。無監督學習最常應用的場景是聚類(clustering)和降維(dimension reduction)。聚類演算法包括

機器學習---分類、迴歸、聚類、降維的區別

由上圖我們可以看到，機器學習分為四大塊，分別是 classification (分類)， regression (迴歸), clustering (聚類), dimensio

【機器學習】人像識別（二）——PCA降維

　　降維沒有什麼祕訣。我用了python裡sklearn.decomposition模組的IncrementalPCA。　　程式碼如下： X = np.array(dots) # do

[機器學習系統設計(一)]數據導入，預處理與一次二次擬合

畫圖標簽參數殘差 res 模型 pri itl 創建模型目錄： 1.數據的讀取 2.數據的預處理 3.一次擬合 4.二次擬合 5.分段擬合 6.畫圖案例：已收集某個網頁每個小時被點擊的次數，第一行數據為小時，第二行數據表示點擊次數。現在需擬合出點擊次數與時間的

機器學習實踐（四）—sklearn之特徵預處理

一、特徵預處理概述什麼是特徵預處理 # scikit-learn的解釋 provides several common utility functions and transformer classes to change raw feature vectors into

3-6 用 Pandas 進行資料預處理：資料清洗與視覺化（版本：py3）

主要內容：格式轉換缺失資料異常資料資料標準化操作格式轉換如Python記錄時間的方式，不能夠直接實現減運算，就需要進行轉換 pandas.to_datetime 缺失資料忽略缺失資料直接標記利用平均值、最常出現值進行填充異常資料處

影象與機器學習-3-特徵

學習了影象處理中的5種特徵提取方法，這些特徵提取方法各有特點，適用場景也不同。 1. 直方圖&&haar-like特徵提取：直方圖：單個畫素灰度分佈的一階統計量。紋理是灰度在空間以一定的形式變換產生的圖案，直方圖是描述影象中畫素灰度級分佈的工具，可以用直方圖或其統計特徵作為

機器學習小組知識點27：資料預處理之資料離散化（Data Discretization）

離散化和概念分層產生通過將屬性域劃分為區間，離散化技術可以用來減少給定連續屬性值的個數。區間的標號可以替代實際的資料值。如果使用基於判定樹的分類挖掘方法，減少屬性值的數量特別有好處。通常，這種方法是遞迴的，大量的時間花在每一步的資料排序上。因此，待排序的不同

機器學習特徵工程之特徵預處理

特徵預處理是什麼？通過特定的統計方法（數學方法）講資料轉換成演算法要求的資料。數值型資料：歸一化標準化缺失值類別型資料：one-hot編碼時間型別：時間的切分特徵選擇的意義在對資料進行異常值、缺失值、資料轉換等處理後，我們

機器學習-3.資料特徵預處理與資料降維

一、特徵預處理

1. 歸一化

2. 標準化

3. 缺失值

二、資料降維

1. 特徵選擇-過濾式

2. 對映方法-PCA(主成份分析)

3. 特徵選擇與主成份分析如何選擇

4. 小結

相關推薦