資料特徵選定

阿新 • • 發佈：2018-11-12

資料特徵選定

目的：最大限度地從原始資料中提取出合適的特徵。

單變數特徵選定

統計分析可以用來分析和選擇對結果影響最大的資料特徵；
可以選用一系列統計方法來選定資料特徵；
卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度，偏離程度決定了卡方值的大小；
卡方值越大，越不符合
卡方值越小，偏差越小，越趨於符合；
若兩個值完全相等，卡方值就為 0，表示理論值完全符合。

# 通過卡方檢驗選定資料特徵

import numpy as np
import pandas as pd
from sklearn.feature_selection import 
 SelectKBest
from sklearn.feature_selection import chi2

# 匯入資料
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 將資料分為輸入資料和輸出結果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特徵選定
test = SelectKBest( 
score_func=chi2, k=4)
fit = test.fit(X, Y)
np.set_printoptions(precision=3)
print(fit.scores_)
features = fit.transform(X)
print(features)

遞迴特徵消除（RFE）

RFE 使用一個基模型來進行多輪訓練，每輪訓練以後，消除若干權值係數的特徵，再基於新的特徵集進行下一輪訓練；
通過每一個基礎模型的精度，找到對最終的預測結果影響最大的資料特徵；

# 通過遞迴消除來選定特徵
import pandas as pd
import numpy as 
 np
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# 匯入資料
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 將資料分為輸入資料和輸出結果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特徵選定
model = LogisticRegression()
rfe = RFE(model, 3)
fit = rfe.fit(X, Y)
print("特徵個數：")
print(fit.n_features_)
print("被選定的特徵：")
print(fit.support_)

for feature, selected in zip(names, fit.support_):
    if selected:
        print(feature)

print("特徵排名：")
# 被標記為 1 的特徵是被選定的特徵
print(fit.ranking_)

主成分分析

PCA 為了讓對映後的樣本具有最大的發散性，無監督降維
LDA 是為了讓對映後的樣本具有最好的分類效能，有監督降維

# 通過主要成分分析選定資料特徵
import pandas as pd
from sklearn.decomposition import PCA

# 匯入資料
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 將資料分為輸入資料和輸出結果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特徵選定
pca = PCA(n_components=3)
fit = pca.fit(X)
print("解釋方差：%s" % fit.explained_variance_ratio_)
print(fit.components_)
print(fit.components_.shape)

特徵的重要性

決策樹演算法、隨機森林演算法、極端隨機樹演算法都可以用來計算資料特徵的重要性。

# 通過決策樹計算特徵的重要性
import pandas as pd
from sklearn.ensemble import ExtraTreesClassifier

# 匯入資料
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 將資料分為輸入資料和輸出結果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特徵選定
model = ExtraTreesClassifier()
fit = model.fit(X, Y)
print(fit.feature_importances_)

另外，線性迴歸以及正則化的線性迴歸（嶺迴歸、LASSO 迴歸）、邏輯迴歸都可以計算得到特徵的權重，通過權重的大小，也能反映特徵的重要性，特別地，LASSO 迴歸會讓一些特徵的權重變為 0。

參考資料：
1、使用 scikit-learn 進行特徵選擇
Read more: http://bluewhale.cc/2016-11-25/use-scikit-learn-for-feature-selection.html#ixzz5UMdz0779
說明：這篇文章中還介紹了使用方差的閾值進行特徵選擇的操作。

資料特徵選定

資料特徵選定目的：最大限度地從原始資料中提取出合適的特徵。單變數特徵選定統計分析可以用來分析和選擇對結果影響最大的資料特徵；可以選用一系列統計方法來選定資料特徵；卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度，偏離程度決定了卡方值的大小；

資料預處理與資料特徵選定

特徵工程是建立高準確度機器學習演算法的基礎，使用正確的特徵來構建正確的模型，以完成既定的任務。資料預處理需要根據資料本身的特性進行，有不同的格式和不同的要求，有缺失值要填，有無效資料的要剔除，有冗餘維的要選，這些步驟都和資料本身的特性緊密相關。資料預處理大致

資料特徵工程之量化裝箱

量化裝箱假設這樣一個數據集，裡面某些屬性的值差異很大，小的可能是10以內，大至幾百幾千，這樣我們該如何去量化呢？直接將它們送入模型可行嗎？ &

Seaborn檢視資料特徵

‘’’ 另一篇部落格：https://blog.csdn.net/weixin_40924580/article/details/82809484 有關於使用matplotlib檢視titanic資料特徵的方法 ‘’’ 資料下載——儲存——匯入 import pandas as pd

日常工作中的資料特徵引發的慢查詢

在進入主題之前，首先來了解一個概念“過濾因子”。過濾因子：影響 SQL 查詢的除了查詢本身還與資料庫表中的資料特徵有關。一個 SQL 查詢掃描的索引片大小其實是由過濾因子決定的，也就是滿足查詢條件的記錄行數所佔的比例。 users 表，有主鍵(id)、姓名(name)、性別(sex)、年

資料特徵歸一化/標準化方法

歸一化/標準化定義歸一化：就是將訓練集中數值特徵的值縮放到0和1之間。公式如下標準化：就是將訓練集中數值特徵的值縮放成均值為0，方差為1的狀態。公式如下需要先計算出均值和標準差，下面是標準差的計算公式 μ表示均值，x*表示標準化的表示式優點

機器學習——資料特徵預處理

歸一化以及標準化歸一化特定:通過對原始資料進行變換把資料對映到(預設為[0,1])之間公式:X'=(x-min)/(max-min) X''=X'*(mx-mi)+mi 注意:作用於每一列，max為一列的最大值，min為一列的最小值，那麼X''為最終結果，mx，mi分別為指定區

資料探索（2）資料特徵分析

資料特徵分析分佈分析 1.定量資料的分佈分析對於定量變數而言，選擇組數和組寬是做頻率分佈分析時最主要的問題，一般按照以下步驟進行。 1）求極差 2）決定組距和組數 3）決定分店 4）列出頻率分佈表 5）繪製頻率分佈直方圖遵循以下原則： 1）各組之間必須相互排斥 2）各組

R資料特徵分析

貢獻度分析 barplot(dishdata[,3],col = 'green1',names.arg = dishdata[,2],width = 1,space = 0, ylim = c(0,10000),xlab = "菜品",ylab = "盈利：元")

各資料特徵與房價的關係

from sklearn.datasets import load_boston boston = load_boston() print(boston.keys()) data = boston.data x = data[:,5] y = boston.target import matplot

資料特徵的標準化和歸一化你瞭解多少？

一、標準化/歸一化定義歸一化和標準化經常被搞混，程度還比較嚴重，非常干擾大家的理解。為了方便後續的討論，必須先明確二者的定義。歸一化就是將訓練集中某一列數值特徵(假設是第i列)的值縮放到0和1之間。方法如下所示：標準化就是將訓練

2018最新實用BAT機器學習演算法崗位系列面試總結(結構化資料特徵工程)

特徵工程，是對原始資料進行一系列工程處理，目的是去除原始資料中的雜質和冗餘，設計更高效的特徵來描述求解的問題與預測模型之間的關係。特徵工程主要對以下兩種常用的資料型別做處理：（1）結構化資料。結構化資料型別可以看作關係型資料庫的一張表，每列都有清晰的定義，包

機器學習-3.資料特徵預處理與資料降維

特徵預處理定義：通過特定的統計方法（數學方法）將資料轉換成演算法要求的資料。處理方法數值型資料：標準縮放（1.歸一化，2.標準化）；缺失值。類別型資料：one-hot編碼。時間型別：時間的切分。預處理API：sklear

第一章資料特徵分析

一、幾個基礎分析思路分佈分析：研究資料的分佈特徵、分佈型別，按定量、定性資料區分基本統計量對比分析：兩個互相聯絡的指標進行比較統計分析：對定量資料進行統計分析，常從集中趨勢和離中趨勢兩個方面分析帕累託分析：貢獻度分析，帕累託原則：20/80定律正太性

資料特徵分析技能—— 相關性檢驗

資料特徵分析技能—— 相關性檢驗相關性分析是指對兩個或多個具備相關性的變數元素進行分析，從而衡量兩個變數因素的相關密切程度一般常用四種方法： - 畫圖判斷 - pearson（皮爾遜）相關係數 - sperman（斯皮爾曼）相關係數 - Cosine similar

資料特徵分析技能—— 帕累託分析

資料特徵分析技能—— 帕累託分析又稱ABC分類庫存控制法，主次因分析法，20/80定律等。 - 一般來說投入產出，努力和報酬之間並不是絕對的線性關係，總有一些關鍵因素起著至關重要的作用，而帕累託分析就是找到影響事務的關鍵因素，分清主次。 import numpy

資料特徵分析技能—— 統計分析

資料特徵分析技能——統計分析統計指標對定量資料進行統計描述，常從集中趨勢和離中趨勢兩個方面進行分析 import numpy as np import pandas as pd import matplotlib.pyplot as plt % matplotlib

資料特徵分析技能—— 分佈分析

資料特徵分析技能—— 分佈分析分佈分析法又稱直方圖法。它是將蒐集到的質量資料進行分組整理，繪製成頻數分佈直方圖，用以描述質量分佈狀態的一種分析方法 import numpy as np import pandas as pd import matplotlib.pyp

微陣列資料特徵選擇的模因演算法

#引用 ##LaTex @inproceedings{Zhu:2007:MAF:1418707.1418870, author = {Zhu, Zexuan and Ong, Yew-Soon}, title = {Memetic Algorithms for

sklearn資料特徵重要程度的篩選

''' ''' from sklearn.feature_selection import SelectKBest, f_classif import matplotlib.pyplot as plt selector = SelectKBest(f_cl

資料特徵選定

資料特徵選定

單變數特徵選定

遞迴特徵消除（RFE）

主成分分析

特徵的重要性

相關推薦