數據挖掘——特征工程

阿新 • • 發佈：2018-10-26

info .data pandas 回歸 marker ase 最好的離散 median

特征工程（Feature Engineering）

　　特征工程其本質上是一項工程活動，它的目的是最大限度地從原始數據中提取特征以供算法和模型使用。

　　特征工程的重要性：

特征越好，靈活性越強
特征越好，模型越簡單
特征越好，性能越出色

數據和特征決定了機器學習的上限，而模型和算法只是逼近這個上限。特征工程的最終目的就是提升模型的性能。

特征工程包括：數據處理、特征選擇、維度壓縮三大方面的內容。

1、數據處理：量綱不一、虛擬變量、缺失值填充

1.1、量綱不一

量綱就是單位，特征的單位不一致就不能放在一起比較，可以使用數據標準化的方法來達到量綱一致的要求。

常用的數據標準化方法：0-1標準化、Z標準化、歸一化

1.1.1 0-1標準化

　　0-1標準化是對原始數據進行線性變化，將特征值映射成區間為[0，1]的標準值中。

　　標準化值 = 技術分享圖片

導入一份含電影票房和豆瓣評分的數據如下

技術分享圖片

　　基於sklearn包的0-1標準化：

scaler = MinMaxScaler()

data[‘票房0-1標準化‘] = scaler.fit_transform(np.array(data[‘累計票房‘]).reshape(5, -5))
data[‘評分0-1標準化‘] = scaler.fit_transform(np.array(data[‘豆瓣評分‘]).reshape(5, -5))

1.1.2 Z標準化

　　Z標準化是基於特征值的均值和標準差進行數據的標準化，標準化後的變量圍繞0上下波動，大於0說明高於平均水平，小於0說明低於平均水平。

　　標準化值 = 技術分享圖片

　　基於sklearn包的Z標準化：

from sklearn.preprocessing import scale
data[‘票房z標準化‘] = scale(data[‘累計票房‘])
data[‘評分z標準化‘] = scale(data[‘豆瓣評分‘])

1.2、虛擬變量

虛擬變量也叫啞變量或離散特征編碼，可用來表示分類變量、非數量因素可能產生的影響。

python中主要通過pandas包中的get_dummies方法進行特征變量的虛擬化。

1.3、缺失值

　　缺失值產生的原因：有些信息暫時無法獲取（單身人士的配偶、未成年人的收入等）；有些信息被遺漏或錯誤的處理了

　　缺失值處理方法：數據補齊；刪除缺失值；不處理

from sklearn.preprocessing import Imputer
# mean, median, most_frequent 三種處理參數
imputer = Imputer(strategy=‘mean‘)
imputer.fit_transform(data2[[‘累計票房‘]])

2、特征選擇:

如何選擇特征：考慮特征是否發散；考慮特征與目標相關性

以以下格式的數據為例，用不同方法得到特征

技術分享圖片

2.1 、方差選擇法

先計算各個特征的方差，根據閾值，選擇方差大於閾值的特征

基於sklearn包的方差選擇獲取特征的方法

from sklearn.feature_selection import VarianceThreshold
varianceThreshold = VarianceThreshold(threshold=10) #設置方差閾值，只選擇方差大於10的特征
varianceThreshold.fit_transform(data[[‘累計票房‘, ‘豆瓣評分‘]])  

data[[‘累計票房‘, ‘豆瓣評分‘]].std() #計算兩列各自的方差，其中豆瓣評分方差為1.79，低於10

varianceThreshold.get_support() #得到選擇特征的列的序號

2.2、相關系數法

先計算各個特征對目標值的相關系數，選擇更加相關的特征

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_regression

selectbest =SelectKBest(f_regression, k=2) #設置通過回歸的方法， 選擇數量為2個的特征

feature = data1[[‘月份‘,‘季度‘,‘廣告費用‘,‘客流量‘]]  #變量矩陣
bestfeature = selectbest.fit_transform(feature,data1[‘銷售額‘]) #得到與銷售額相關度最高的2個變量
feature.columns[selectbest.get_support()]  #獲得特征列的名稱

2.3、遞歸特征消除法

使用一個基模型來進行多輪訓練，經過多輪訓練後，保留指定的特征數

from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression

#選擇線性回歸模型， 保留2 個特征
rfe = RFE(estimator= LinearRegression(), n_features_to_select=2) 

sFesture = rfe.fit_transform(feature, data1[‘銷售額‘])

rfe.get_support()

2.4、模型選擇法

將建好的模型對象傳入選擇器，然後它會根據這個建好的模型，自動選擇最好的特征值

from sklearn.feature_selection import SelectFromModel

lrmodel = LinearRegression()  #先創建一個線性回歸對象
selectmodel = SelectFromModel(lrmodel)

selectmodel.fit_transform(feature,data1[‘銷售額‘])
feature.columns[selectmodel.get_support()]

3、維度壓縮

特征選擇完成後，可以直接訓練模型，但可能由於特征矩陣過大，導致計算量和計算時間大，因此需要降低矩陣維度。

主成分分析（PCA）就是最常用的數據降維方法：在減少數據維度的同時，保持對方差貢獻最大的特征。

以iris數據集為例，將四維數據轉化成三維、二維數據

from sklearn import datasets
iris = datasets.load_iris()
data_iris = iris.data
target = iris.target

from sklearn.decomposition import PCA
pca_3 = PCA(n_components=3) #創建一個維度為3維的PCA對象
data_pca_3 = pca_3.fit_transform(data_iris) #將iris數據集降至三維

將三維圖形繪制出來

import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

colors = {0:‘r‘, 1:‘b‘, 2:‘k‘}
markers = {0:‘x‘, 1:‘D‘, 2:‘o‘}
fig = plt.figure(1, figsize=(8, 6))
ax = Axes3D(fig, elev=-150, azim=110)

data_pca_gb = pd.DataFrame(data_pca_3).groupby(target)

for g in data_pca_gb.groups:
    ax.scatter(
        data_pca_gb.get_group(g)[0], 
        data_pca_gb.get_group(g)[1], 
        data_pca_gb.get_group(g)[2], 
        c=colors[g], 
        marker=markers[g],
        cmap=plt.cm.Paired)

得到如下的三維圖形

技術分享圖片

將數據降至二維同理

pca_2 = PCA(n_components=2) 
data_pca_2 = pca_2.fit_transform(data_iris)    
data_pca_gb = pd.DataFrame(data_pca_2).groupby(target)

技術分享圖片

數據挖掘——特征工程

Python數據挖掘—特征工程—特征選擇

from res 6.2 最好的 python features import 方差過多如何選擇特征根據是否發散及是否相關來選擇方差選擇法先計算各個特征的方差，根據閾值，選擇方差大於閾值的特征方差過濾使用到的是VarianceThreshold類，該類有個參數t

數據挖掘——特征工程

info .data pandas 回歸 marker ase 最好的離散 median 特征工程（Feature Engineering）　　特征工程其本質上是一項工程活動，它的目的是最大限度地從原始數據中提取特征以供算法和模型使用。　　特征工程的重要性：特征越

Hulu機器學習問題與解答系列 | 二十二：特征工程—結構化數據

實現 adk n) 過程結果點擊推薦算法 cti 特征工程聽說最近冒出的大批呱兒子個個都是撐著眼皮也要看書的無眠小青蛙。我們學習Machine Learning的腳步又怎能停下來？動動手指，上滑開始~ 今天的內容是【特征工程—結構化數據】場景描述特

python數據挖掘（從數據集中抽取特征）

lec 刪除 nsf clas 世界創建模型 efault TP join 大多數數據挖掘算法都依賴於數值或類別型特征，從數據集中抽取數值和類別型特征，並選出最佳特征。特征可用於建模，模型以機器挖掘算法能夠理解的近似的方式來表示現實特征選擇的另一個優點在於：降低真實

數據挖掘——親和性分析

基因 conf log 支持度用戶 continue 字典 rem 帶來親和性分析根據樣本個體之間的相似度，確定它們關系的親疏。應用場景: 1.向網站用戶提供多樣化的服務或投放定向廣告。 2.為了向用戶推薦電影或商品 3.根據基因尋找有親緣關系的人比如：統計顧客購買了

Kaggle 數據挖掘比賽經驗分享

沒有 bin 不一致要求 center 線性模型保留 libz 無法 1.Kaggle 基本介紹 Kaggle 於 2010 年創立，專註數據科學，機器學習競賽的舉辦，是全球最大的數據科學社區和數據競賽平臺。在 Kaggle 上，企業或者研究機構發布商業和科研難題，懸賞

Python和R數據挖掘分析技術高級公開課在上海舉行

python r數據挖掘分析技術高級公開課 2017年5月15日，Python和R數據挖掘分析技術培訓在上海開課。來自各企業的系統架構師、系統分析師、高級程序員、資深開發人員、大數據來源單位的負責人，參加了此次培訓。本次培訓中，老師將會針對具體實際問題與學員一起進行研究，在關鍵點上還會搭建

R語言數據挖掘實戰系列（1）

數據挖掘建模分析 R語言數據挖掘實戰（1）一、數據挖掘基礎數據挖掘：從數據中“淘金”，從大量數據（包括文本）中挖掘出隱含的、未知的、對決策有潛在價值的關系、模式和趨勢，並用這些知識和規則建立用於決策支持的模型，提供預測性決策支持的方法、工具和過程。數據挖掘的任務利用分類與預測、聚類分析、關聯規

使用excel進行數據挖掘（6）---- 預測

max 表示 jsb cast tail 用戶 roman order 報表在配置環境後，能夠使用excel進行數據挖掘。環境配置問題可參閱： http://blog.csdn.net/xinxing__8185/article/details/4644543

R語言數據挖掘實戰系列（3）

數據處理統計分析函數繪圖 R語言數據挖掘實戰系列（3）三、數據探索通過檢驗數據集的數據質量、繪制圖表、計算某些特征量等手段，對樣本數據集的結構和規律進行分析的過程就是數據探索。數據質量分析數據質量分析的主要任務是檢查原始數據中是否存在臟數據，臟數據一般是指

數據挖掘R 神經網絡基礎

應輸入特性特點 mcc image 函數定義聯系來源出現數據挖掘第二章神經網絡基礎　　§2.1 生物神經元模型　　§2.2 人工神經元模型　　§2.3 網絡拓撲結構類型　　§2.4 人工神經網絡模型　　§2.5 神經網絡的學習 §2.1 生物

數據挖掘與機器學習——weka應用技術與實踐

lin 網絡服務開發對數結果 gre 枚舉挖掘 int 第一章 weka介紹 1.1 weka簡介 weka是懷卡托智分析環境（Waikato Environment for Knowledge Analysis）的英文縮寫，官方網址為：<htt

數據挖掘十大算法總結--核心思想，算法優缺點，應用領域

data- 文本分類 target apr 排名 ans kmean 全部等等 --------------------------

2017.06.29數據挖掘基礎概念第六，八，九章

之前屬性。 prior 選擇處理挖掘允許什麽是單元第六章51、關聯規則的挖掘的兩個過程1、找出所有的頻繁項集2、由頻繁項集產生強關聯規則52、頻繁項集挖掘方法 1、Apriori算法 2、挖掘頻繁項集的模式增長方法 3、使用垂直數據格式挖掘頻繁項

2017.06.29數據挖掘基礎概念第四章

構建企業操作允許包含元數據體系結構當前然而第四章39、為什麽在進行聯機分析處理(OLAP)時，我們需要一個獨立的數據倉庫，而不是直接在日常操作的數據庫上進行 1、提高兩個系統的性能 2、操作數據庫支持多事務的並發處理，需要並發控制和恢復機制，確保一

數據挖掘之定義

-- 歷史問題數學自己條件不同計算和數大數據是2012的時髦詞匯，正受到越來越多人的關註和談論。大數據之所以受到人們的關註和談論。是由於隱藏在大數據後面超千億美元的市場機會。　　大數據時代，數據挖掘是最關鍵的工作。下面內容供個人學習用，感興趣的朋友能夠

用SQL玩轉數據挖掘之MADlib（一）——安裝

system wan 商品 ase 關聯規則挖掘樹模型 ats 調用 ability 　　一、MADlib簡介　　　　MADlib是Pivotal公司與伯克利大學合作的一個開源機器學習庫，提供了精確的數據並行實現、統計和機器學習方法對結構化和非結構化數據進行分析，主要目的

數據挖掘 - 算法 - ID3 - 轉自 http://www.cnblogs.com/dztgc/archive/2013/04/22/3036529.html

str htm bar c++代碼度量進行初始化 ++ 預測 1 簡介　　決策樹學習是一種逼近離散值目標函數的方法，在這種學習到的函數被表示為一棵決策樹。 2 決策樹表示　決策樹通過把實例從根節點排列到某個葉子結點來分類實例，葉子結點即為實例所屬的分類。樹上的

數據挖掘工程師如何選擇數據可視化工具？

數據數據挖掘可視化如何選擇數據可視化工具？如何選用數據可視化工具？在回答這個問題之前現需要回答另外一個問題，你需要用這些數據可視化工具來做什麽，實現什麽目的。也許你有一個完整的想法，已經通過驗證了，需要用更直觀易懂的方式來展現，從而講述一個邏輯或者是一個故事；也許你是有大量的數據，你想怎麽從

數據挖掘與處理

服務商機制自然語言處理服務數據分析數據分析自動獲取事先　　其實最初聽到數據挖掘，覺得很高大上，沒有過多的思考，挖來的數據能幹嘛呢。　　剛看到一篇關於數據分析的文章，大概內容就是獲取用戶評論，然後對評論進行分析，找出客戶不滿意的地方，但這種分析還是人為的去

數據挖掘——特征工程

相關推薦