特徵工程——特徵轉換

阿新 • • 發佈：2019-01-10

這裡寫圖片描述

一、連續型變數

1.1 連續變數無量綱化

無量綱化： 使不同規格尺度的資料轉化統一規格尺度（將資料單位統一）
無量綱化方法：標準化, 區間所方法

標準化：將連續性變數轉變為均值0 標準差1 的變數: $x^{'} = \frac{x - \bar{x}}{σ} 其中 \bar{x} 是均值， σ 是标准差$

程式碼：                                 #對 Amount欄位--均值為0，方差為1標準化
from sklearn import preprocessing
std = preprocessing.StandardScaler()  #StandardScaler 

Amount = RFM['Amount'].values.reshape(-1,1)
std.fit(Amount)
RFM['Amount_std'] = std.transform(Amount)
RFM.head(5)

區間縮放法：把原始的連續型變數轉換為範圍在[a,b]或者 [0,1] 之間的變數

x^{'} = \frac{x - m i n (x)}{m a x (x) - m i n (x)}

程式碼：                                       #對 Amount欄位--[0,1]區間歸一化 
from sklearn import preprocessing
Min 
Maxscaler = preprocessing.MinMaxscaler()  #MinMaxscaler
Amount = RFM['Amount'].values.reshape(-1,1)
MinMaxscaler.fit(Amount)                     #擬合(訓練)
RFM['Amount_range'] = MinMaxscaler.transform(Amount)
RFM.head(5)

1.2 連續變數資料變換

資料變換：通過函式變換改變原始資料的分佈
目   的： 資料從無關係 -> 有關係
         呈偏態分佈-->變換後差異拉開
         讓資料符合模型理論所需要的假設，然後對其分析，例如：變換後資料呈正態分佈

資料變化方法：: logX,Ine 等對數函式變換 $x^{'} = l n (x)$
box-cox 變換：自動尋找最佳正態分佈變換函式的方法

這裡寫圖片描述

程式碼1：             #對 Amount欄位--log 變換
import numpy as np
RFM['Amount_log'] = np.log(RFM['Amount'])
RFM,head(5)

程式碼2：             #對 Amount欄位--sqrt (平方根) 變換
import numpy as np
RFM['Amount_sqrt'] = np.sqrt(RFM['Amount'])
RFM,head(5)

1.3 連續變數離散化

目的：方便探索資料相關性
      減少異常資料對模型的干擾
      為模型引入非線性，提升模型預測能力
      離散後，可進行特徵交叉組合，又M+N 變成 M*N
資料離散化方法：
    非監督離散方法：
        自定義規則，
        等寬方法，
        等頻/等深方法

非監督離散方法：
 #對 Amount欄位--自定義區間 離散化
        cut_points = [0,200,500,800,1000]
        RFM['Amount_bin'] = pd.cut(RFM['Amount'],bin = cut_points)
        RFM,head(5)
 #對 Amount欄位--等寬 離散化
        RFM['Amount_width_bin'] = pd.cut(RFM.Amount,20) #分成20等分
        RFM,head(5)
        grouped = RFM.groupby('Amount_width_bin')
        grouped['CardID'].count()
 #對 Amount欄位--等深 離散化
        RFM['Amount_depth_bin'] = pd.qcut(RFM.Amount,5) #分成5人的等分約20%
        RFM,head(5)
        grouped = RFM.groupby('Amount_depth_bin')
        grouped['CardID'].count()

有監督離散方法：決策樹
離散化後的目標分類純度最高（對目標有很好的區分能力）
一種特殊的離散化方法：
    二值化：           把連續型變數分割為0/1（是/否） 例如：是否大於18歲（是/否）
    Rounding（取整）： 本質上時一種類似‘等距方法’的離散

二、類別變數編碼

類別變數編碼：: 類別型變數—-編碼成—> 數值型變數
目的：: 機器學習演算法無法處理類別型變數，必須轉換為數值型變數
一定程度起到了擴充特徵的作用（構造了新的特徵）
one-hot encoding 獨熱編碼
dummy encoding 啞變數編碼
label-encoding 標籤編碼
count-Encoding 頻數編碼（可以去量綱化，秩序，歸一化）
Target encoding 二分類用目標變數中的某一類的比例來編碼

程式碼：
import pandas as pd                    #匯入的資料來源於 特徵構造
trade = pd.read_csv('./data/transaction.txt')
trade['Date'] = pd.to_datetime(trade['Date'])
RFM = trade.groupby('CardID').egg({'Date':'max','CardID':'count','Amount':'sum'})
RFM.head()

--------------Onehot 編碼（獨熱編碼）使用pandas------------------
onehot = pd.get_dummies(RFM['CardID']),drop_first = False,prefix = 'Freq'

onehot.head()
    from sklearn import preprocessing      #使用sklearn 匯入OneHotEncoder
    onehot = preprocessing.OneHotEncoder() #OneHotEncoder
    Freq = RFM['CardID'].values.reshape(-1,1)
onehot.fit(Freq)
    Freq_onehot = onehot.transform(Freq).toarray()
    Freq_onehot
    df = pd.DataFrame(Freq_onehot)         #將array 轉為pandas 的dataframe
    df.head()

三、時間型、日期型變數轉換

程式碼：
import pandas as pd
data = pd.DataFrame({'data_time':pd.date_range('1/1/2017 00:00:00',period = 12,freq = 'H'),'data':pd.date_range('2017-1-1',period = 12,freq = 'M')
})

■ data:提取日期型和時間型的特徵變數
data['year']= data['data_time'].dt.year
data['month'] = data['data_time'].dt.month
data['day'] = data['data_time'].dt.day
data['hour'] = data['data_time'].dt.hour
data['minute'] = data['data_time'].dt.minute
data['second'] = data['data_time'].dt.second
data['quarter'] = data['data_time'].dt.quarter
data['week'] = data['data_time'].dt.week
data['yearmonth'] = data['data_time'].dt.strftime('%Y-%m')
data['halfyear'] = data['data_time'].mapa(lambda d:'H' if d.month <= 6 else 'H2')

■ data：轉換為相對時間特徵
import datetime
data['deltaDayToToday'] = (datetime.date.today()-data['date'].dt.date).dt.days  #距離今天的間隔（天數）
data['deltaMonthToToday'] = datetime.date.today().month - data['date'].dt.month #距離今天的間隔（月數）
data['daysOfyear'] = data['date'].map(lambda d:366 if d.is_leap_year els 365)   #一年過去的進度
data['rateOfyear'] = data['date'].dt.dayofyear/data['daysOfyear']
data.head()

四、缺失值處理

刪除缺失值記錄
缺失值替換:: 用0替換
平均數替換
眾數替換
預測模型替換
構造NaN encoding編碼：: 構造一個新的欄位來標識是否有缺失(1/0) 任何時候都可使用

import pandas as pd
titanic = pd.read_csv('./data/titanic.csv')
titanic.info()

age_mean = round(titanic['Age'].mean())        #對缺失值進行填充
titanic['Age'].fillna(age_mean,inplace = True) #填充平均年齡
titanic.info()

titanic = pd.read_csv('./data/titanic.csv')    #構造缺失值的標誌變數（0/1）
titanic.info()
titanic['Age_ismissing'] = 0
titanic.loc[titanic['Age'].isnull(),'Age_ismissing'] = 1
titanic['Age_ismissing'].value_counts()

五、特徵組合

目的：: 構造更多更好的特徵，提升模型精度（例如：地球儀的經緯密度）
方法：: 多個連續變數：加減乘除運算
多個類別型變數：所有值交叉組合

import pandas as pd 
titanic = pd.read_csv('./data/titanic.csv')
titanic.head()

# 組合特徵
titanic['Sex_pclass_combo'] = titanic['Sex']+'_pclass_'+titanic['Pclass'].astype(str)
titanic.Sex_pclass_combo.value_counts()

# onehot編碼
Sex_pclass_combo = pd.get_dummies['Sex_pclass_combo'],drop_first = False,prefix = 'onehot'
Sex_pclass_combo.head()

特徵工程——特徵轉換

一、連續型變數 1.1 連續變數無量綱化無量綱化：使不同規格尺度的資料轉化統一規格尺度（將資料單位統一）無量綱化方法：標準化, 區間所方法標準化：將連續性變

特徵工程-特徵提取

特徵工程 1、資料降維 2、特徵提取 3、特徵選擇二、特徵提取特徵提取是一個特徵空間上的變換（對映），可以是線性和非線性的。所以特徵提取與特徵選擇的不同之處在於，特

特徵工程--特徵選擇wrapper（遞迴特徵消除）

遞迴特徵消除 (Recursive Feature Elimination) 遞迴消除特徵法使用一個基模型來進行多輪訓練，每輪訓練後，移除若干權值係數的特徵，再基於新的特徵集進行下一輪訓練。 sklearn官方解釋：對特徵含有權重的預測模型(例如，線性模型對應引

特徵工程--特徵歸一化

特徵歸一化/正則化/非線性歸一化歸一化的優勢提升收斂速度：未歸一化優化目標的等值圖為橢圓，歸一化後優化目標的等值圖為圓形，優化時梯度為垂直等值線方向，橢圓以之字形下降提升模型精度：如果我們選用的距離度量為歐式距離，如果資料預先沒有經過歸一化，那麼那些

機器學習特徵工程特徵離散化

如果想深入研究特徵離散化，請直接閱讀博文最後的英文文獻，以免浪費您的時間！一、什麼是特徵離散化簡單的說，就是把連續特徵分段，每一段內的原始連續特徵無差別的看成同一個新特徵二、為什麼進行離散化 1、離散化的特徵更易於理解 2、離散化的特徵能夠提高模

特徵工程--特徵離散化的意義

連續特徵的離散化：在什麼情況下將連續的特徵離散化之後可以獲得更好的效果？ Q:CTR預估，發現CTR預估一般都是用LR，而且特徵都是離散的。為什麼一定要用離散特徵呢？這樣做的好處在哪裡？ A: 在工業界，很少直接將連續值作為邏輯迴歸模型的特徵輸入，而是將連續特徵離散化為一系列0、1特徵交給邏輯迴歸模

sklearn學習——特徵工程(特徵選擇)

特徵選擇方法總結什麼是特徵工程？定義：特徵工程是將原始資料轉化為特徵，更好表示預測模型處理的實際問題，提升對於未知資料的準確性。它是用目標問題所在的特定領域知識或者自動化的方法來生成、提取、刪減或者組合變化得到特徵。為什麼要特徵工程？簡

機器學習之特徵工程-特徵選擇

點選“閱讀原文”直接開啟【北京站 | GPU CUDA 進階課程】報名連結一個基本的資料探勘場景如下：資料探勘.jpg 從上面的資料探勘場景可知，當資料預處理完成後，我們需要選擇有意義的特徵，輸入機器學習的演算法模型進行訓練。通常來說，從兩個方面考慮來選擇特徵：特徵是否發散：如果一個特徵

特徵工程——特徵選擇

一、特徵選擇–與降維的差異相同點：效果一樣，都是試圖減少資料集中的特徵數目不同點：方法不同降維：通過對原特徵進行對映後得到新的少量特徵，帶到降維目的特徵

機器學習系列之特徵工程

資料的特徵選擇資料特徵主要分為兩部分，一部分是業務已經整理好的各種特徵資料；另一部分是根據業務特徵去構造的資料特徵。特徵選擇的方法一、已有特徵 1.過濾法選擇特徵：方差越小，不同樣本的特徵值越相似，此特徵作用越小；各個特徵與輸出值間的相關係數，選擇相關係數較大的部分

資料特徵工程之量化裝箱

量化裝箱假設這樣一個數據集，裡面某些屬性的值差異很大，小的可能是10以內，大至幾百幾千，這樣我們該如何去量化呢？直接將它們送入模型可行嗎？ &

機器學習特徵工程總結

一、前言資料清洗：不可信的樣本去除缺失值極多的欄位考慮去除補齊缺失值資料取樣：很多情況下，正負樣本是不均衡的，大多數模型對正負樣本是敏感的（比如LR）正樣本>>負樣本，且量都挺大：下采樣正樣本>>負

系統學習機器學習之特徵工程（二）--離散型特徵編碼方式：LabelEncoder、one-hot與啞變數*

轉自：https://www.cnblogs.com/lianyingteng/p/7792693.html 在機器學習問題中，我們通過訓練資料集學習得到的其實就是一組模型的引數，然後通過學習得到的引數確定模型的表示，最後用這個模型再去進行我們後續的預測分類等工作。在模型訓練過程中，我們會對訓練

【特徵工程】嘔心之作——深度瞭解特徵工程

文章目錄一特徵工程介紹（Feature Engineering） 1 定義及意義（1）定義（2）意義（3）相關概念 1）特徵與屬性的區別？ 2）什麼是特徵重要性？

1. 特徵工程之特徵預處理

1. 前言 “資料決定了機器學習的上限，而演算法只是儘可能逼近這個上限”，這裡的資料指的就是經過特徵工程得到的資料。特徵工程指的是把原始資料轉變為模型的訓練資料的過程，它的目的就是獲取更好的訓練資料特徵，使得機器學習模型逼近這個上限。特徵工程能使得模型的效能得到提升，有時甚至在簡單的模型上也能取得不錯的效果

機器學習--特徵工程1--標準化

sklearn.preprocessing https://scikit-learn.org/stable/modules/preprocessing.html 結合sklearn來學習一下資料的預處理過程：安裝 pip install -U scikit

機器學習--特徵工程0

之前面試遇到過好幾次特徵工程的理解，學習一下特徵工程系列知識參考地址： https://www.cnblogs.com/peizhe123/p/7412364.html https://scikit-learn.org/stable/modules/preprocessing.html

2. 特徵工程之特徵選擇

1. 前言當資料預處理完成後，我們需要選擇有意義的特徵輸入機器學習的演算法和模型進行訓練。在做資料分析的時候，特徵的來源一般有兩塊，一塊是業務已經整理好各種特徵資料，我們需要去找出適合我們問題需要的特徵；另一塊是我們從業務特徵中自己去尋找高階資料特徵。我們就針對這兩部分來分別討論。 2. 特徵選擇的

特徵工程之Histogram編碼

例如有如下的特徵，我們要對性別進行編碼，可能常用的方法就是男性對應0，女性對應1。性別分類標籤男 0 男 1 男 1

特徵工程(筆記)

常用的兩種資料型別： 1、結構化資料。結構化資料型別可以看作關係型資料庫的一張表，每一列都有清晰的定義，包含數值型、類別型兩種基本型別，每一行資料代表一個樣本資訊 2、非機構化資料。非結構化資料主要包括文字、影象、音訊、視訊資料，其包含的資訊無法用一個簡單的數值表示，也沒有清晰的類別定義，並

特徵工程——特徵轉換

一、連續型變數

1.1 連續變數無量綱化

1.2 連續變數資料變換

1.3 連續變數離散化

二、類別變數編碼

三、時間型、日期型變數轉換

四、 缺失值處理

五、 特徵組合

相關推薦

四、缺失值處理

五、特徵組合