sklean 資料集特徵提取

阿新 • • 發佈：2019-01-03

1 利用地方差的方法減少特徵數也及（PCA）

去除那些方差不滿足基本設定的門限值得特徵，特別是方差值為零的，因為方差值為零，那麼資料集在該方向上比較密集，這資料無法通過學習來分類，因此該維度上的向量對特徵的分類沒有太多用處，因此可以去除該維度的特徵，以減少計算複雜度。

例如，假設我們有一個具有布林功能的資料集，我們想要刪除在超過80%的樣本中要麼是一個或零(on或off)的所有特性。布林特徵是伯努利隨機變數，並給出了這些變數的方差

$\mathrm{Var}[X] = p(1 - p)$

我們可以選擇門限是0.8*（1-0.8）

>>> from sklearn.feature_selection import VarianceThreshold 

>>> X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]
>>> sel = VarianceThreshold(threshold=(.8 * (1 - .8)))
>>> sel.fit_transform(X)
array([[0, 1],
       [1, 0],
       [0, 0],
       [1, 1],
       [1, 0],
       [1, 1]])

就像預期的一樣，刪除了資料集的第一列，該列為零的概率p=5/6.0.8

2單變數特徵選擇

單變數特徵選擇是通過單變數統計測試選擇最佳的特徵變數，他可以被看做是對估計器的預處理步驟。

scikit- learn將特徵選擇例程作為實現轉換方法的物件公開:

1 選擇最好的K個特徵，留下得分最好的K個特徵，去掉其他的特徵維度

2 按百分率選擇，去掉除使用者指定的百分率高的特徵維度

3 對每個特性使用通用的單變數統計測試，假陽性率的選擇，錯誤發現率的選擇，或家庭明智的錯誤選擇。

4 允許使用可配置策略執行單特性選擇。這使得我們可以使用超引數搜尋估計器來選擇最優的單變數選擇策略

例如，我們可以對樣本進行 $\chi^2$ 測試，以獲取以下兩個最佳特性:

>>> from sklearn.datasets 
 import load_iris
>>> from sklearn.feature_selection import SelectKBest
>>> from sklearn.feature_selection import chi2
>>> iris = load_iris()
>>> X, y = iris.data, iris.target
>>> X.shape
(150, 4)
>>> X_new = SelectKBest(chi2, k=2).fit_transform(X, y)
>>> X_new.shape
(150, 2)

基於f檢驗的方法估計了兩個隨機變數之間的線性依賴程度。另一方面，互資訊方法可以捕獲任何型別的統計依賴項，但作為非引數，

它們需要更多的樣本來進行準確的估計。

注意不要使用帶有分類問題的迴歸評分功能，您將會得到無用的結果。

單特徵選擇

print(__doc__)

import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets, svm
from sklearn.feature_selection import SelectPercentile, f_classif

# #############################################################################
# Import some data to play with

# The iris dataset
iris = datasets.load_iris()

# Some noisy data not correlated
E = np.random.uniform(0, 0.1, size=(len(iris.data), 20))

# Add the noisy data to the informative features
X = np.hstack((iris.data, E))
y = iris.target

plt.figure(1)
plt.clf()

X_indices = np.arange(X.shape[-1])

# #############################################################################
# Univariate feature selection with F-test for feature scoring
# We use the default selection function: the 10% most significant features
selector = SelectPercentile(f_classif, percentile=10)
selector.fit(X, y)
scores = -np.log10(selector.pvalues_)
scores /= scores.max()
plt.bar(X_indices - .45, scores, width=.2,
        label=r'Univariate score ($-Log(p_{value})$)', color='darkorange',
        edgecolor='black')

# #############################################################################
# Compare to the weights of an SVM
clf = svm.SVC(kernel='linear')
clf.fit(X, y)

svm_weights = (clf.coef_ ** 2).sum(axis=0)
svm_weights /= svm_weights.max()

plt.bar(X_indices - .25, svm_weights, width=.2, label='SVM weight',
        color='navy', edgecolor='black')

clf_selected = svm.SVC(kernel='linear')
clf_selected.fit(selector.transform(X), y)

svm_weights_selected = (clf_selected.coef_ ** 2).sum(axis=0)
svm_weights_selected /= svm_weights_selected.max()

plt.bar(X_indices[selector.get_support()] - .05, svm_weights_selected,
        width=.2, label='SVM weights after selection', color='c',
        edgecolor='black')


plt.title("Comparing feature selection")
plt.xlabel('Feature number')
plt.yticks(())
plt.axis('tight')
plt.legend(loc='upper right')
plt.show()

3 基於L1的特徵選擇

用L1規範對線性模型進行了處理，得到了稀疏解:

>>> from sklearn.svm import LinearSVC
>>> from sklearn.datasets import load_iris
>>> from sklearn.feature_selection import SelectFromModel
>>> iris = load_iris()
>>> X, y = iris.data, iris.target
>>> X.shape
(150, 4)
>>> lsvc = LinearSVC(C=0.01, penalty="l1", dual=False).fit(X, y)
>>> model = SelectFromModel(lsvc, prefit=True)
>>> X_new = model.transform(X)
>>> X_new.shape
(150, 3)

在SVM和邏輯迴歸方面，引數C控制係數率，C越小，選擇的特徵就越少。對於Lasso來說，alpha引數越高，選擇的特徵就越少。
4基於樹的特徵選擇

from sklearn.ensemble import ExtraTreesClassifier
>>> from sklearn.datasets import load_iris
>>> from sklearn.feature_selection import SelectFromModel
>>> iris = load_iris()
>>> X, y = iris.data, iris.target
>>> X.shape
(150, 4)
>>> clf = ExtraTreesClassifier()
>>> clf = clf.fit(X, y)
>>> clf.feature_importances_  
array([ 0.04...,  0.05...,  0.4...,  0.4...])
>>> model = SelectFromModel(clf, prefit=True)
>>> X_new = model.transform(X)
>>> X_new.shape               
(150, 2)

特徵的提取經常被作為管道的一部分，特徵提取經常被用在機器學習的資料預處理階段，因此建議使用sklearn.pipeline.Pipeline:

clf = Pipeline([
  ('feature_selection', SelectFromModel(LinearSVC(penalty="l1"))),
  ('classification', RandomForestClassifier())
])
clf.fit(X, y)

在這段程式碼中，我們使用了sklearn . svm。LinearSVC加上sklearn.feature_selection。SelectFromModel以評估特性的重要性，並選擇最相關的特性。這時,一個sklearn.ensemble。隨機森林分類器被訓練在轉換的輸出上，即只使用相關的特徵。您可以使用其他特性選擇方法和分類器來執行類似的操作，這些方法提供了一種評估特性輸入的方法

sklean 資料集特徵提取

1 利用地方差的方法減少特徵數也及（PCA）去除那些方差不滿足基本設定的門限值得特徵，特別是方差值為零的，因為方差值為零，那麼資料集在該方向上比較密集，這資料無法通過學習來分類，因此該維度上的向量對特徵的分類沒有太多用處，因此可以去除該維度的特徵，以減少計算複雜度。例如

資料探勘入門系列教程（六）之資料集特徵選擇

目錄資料探勘入門系列教程（六）之資料集特徵選擇簡介載入資料集Adult 特徵選擇選擇最佳特徵總結資料探勘入門系列教程

PCA演算法 | 資料集特徵數量太多怎麼辦？用這個演算法對它降維打擊！

本文始發於個人公眾號：**TechFlow**，原創不易，求個關注今天是機器學習專題的第27文章，我們一起來聊聊資料處理領域的降維(dimensionality reduction)演算法。我們都知道，圖片格式當中有一種叫做svg，這種格式的圖片無論我們將它放大多少倍，也不會失真更不會出現邊緣模糊的

資料探勘—LDA,PCA特徵提取降維與SVM多分類在人臉識別中的應用－資料集ORL

@vision 3 @author：馬旭 @tel：13952522076 @email：[email protected] 執行：執行predict.m檔案；結果：時間一般為0.2秒左右，正確率100%；（因為測試集比較少）預處理資料preprocess

人臉特徵提取模型（細緻分析對比分析）-基於LFW資料集

動機總所周知，LFW資料在人臉特徵提取模型的驗證上是一個基本的標杆，目前大部分的方法在上面的效果已經都超過了99%的驗證準確度，但是單純的測試模型在上面的準確度，並不能分析出模型的效能到底好多少？到底好在什

計算機視覺（八）：提取Cifar-10資料集的HOG、HSV特徵並使用神經網路進行分類

1 - 引言之前我們都是將整張圖片輸入進行分類，要想進一步提升準確率，我們就必須提取出圖片更容易區分的特徵，再將這些特徵當做特徵向量進行分類。在之前我們學了一些常用的影象特徵，在這次實驗中，我們使用了兩種特徵梯度方向直方圖（HOG）顏色直方圖（HSV）

解析京東大資料下高效影象特徵提取方案

本文主要分享英特爾和京東在基於Spark和BigDL的深度學習技術在搭建大規模圖片特徵提取框架上的實戰經驗。背景影象特徵提取被廣泛地應用於相似圖片檢索，去重等。在使用BigDL框架（下文即將提到）之前，我們嘗試過在多機多GPU卡、GPU叢集上分別開發並部署特徵抽取應用。但以上框架

第三篇：基於深度學習的人臉特徵點檢測 - 資料集整理

https://yinguobing.com/facial-landmark-localization-by-deep-learning-data-collate/ 在上一篇博文中，我們已經下載到了包括300-W、LFPW、HELEN、AFW、IBUG和300-VW在內的6個數據集，初步估算有2

資料集中空值替換成對應特徵的平均值

如果資料集中缺失資料，將其替換成所屬特徵的平均值。假如檔案forTest.txt中以下資料集： 2,2,2,NaN,2 3,3,NaN,3,3 4,NaN,4,4,4 載入和替換函式： from numpy import * def replaceNanWithMean(f

Keras之MLP：利用MLP【Input(8)→(12)(relu)→O(sigmoid+二元交叉)】模型實現預測新資料(利用糖尿病資料集的八個特徵預測一個0或1）

Keras之MLP：利用MLP【Input(8)→(12)(relu)→O(sigmoid+二元交叉)】模型實現預測新資料(利用糖尿病資料集的八個特徵預測一個0或1）輸出結果實現程式碼 # load and prepare the dataset

Keras之DNN：利用DNN【Input(8)→(12+8)(relu)→O(sigmoid)】模型實現預測新資料(利用糖尿病資料集的八個特徵預測一個0或1）

Keras之DNN：利用DNN【Input(8)→(12+8)(relu)→O(sigmoid)】模型實現預測新資料(利用糖尿病資料集的八個特徵預測一個0或1）輸出結果 [1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0,

Keras之DNN：利用DNN演算法【Input(8)→12+8(relu)→O(sigmoid)】利用糖尿病資料集訓練、評估模型(利用糖尿病資料集中的八個引數特徵預測一個0或1結果)

Keras之DNN：利用DNN演算法【Input(8)→12+8(relu)→O(sigmoid)】利用糖尿病資料集訓練、評估模型(利用糖尿病資料集中的八個引數特徵預測一個0或1結果) 輸出結果設計思路實現程式碼 1、 2、

特徵提取演算法提取二進位制後面的特徵資料，使用Java流實現

幫別人解決一個問題：在搞圖片特徵相似度檢索的東西，特徵提取演算法提取出來的二進位制特徵資料，想要讀取二進位制檔案的每一行固定位之後的資料有啥好的辦法沒？首先讀取二進位制檔案，考慮到使用位元組流，但是不能解決如何判斷換行的問題，綜上，本人是先使用BufferedReader流讀取一行的資料，

人臉識別，解析MS-Celeb-1M人臉資料集及FaceImageCroppedWithAlignment.tsv檔案提取【人臉識別】解析MS-Celeb-1M人臉資料集及FaceImageCroppedWithAlignment.tsv檔案提取

原【人臉識別】解析MS-Celeb-1M人臉資料集及FaceImageCroppedWithAlignment.tsv檔案提取 2018年09月19日 13:11:54

sklean 資料集特徵提取

sklean 資料集特徵提取

資料探勘入門系列教程（六）之資料集特徵選擇

PCA演算法 | 資料集特徵數量太多怎麼辦？用這個演算法對它降維打擊！

資料探勘—LDA,PCA特徵提取降維與SVM多分類在人臉識別中的應用－資料集ORL

人臉特徵提取模型（細緻分析對比分析）-基於LFW資料集

計算機視覺（八）：提取Cifar-10資料集的HOG、HSV特徵並使用神經網路進行分類

解析京東大資料下高效影象特徵提取方案

第三篇：基於深度學習的人臉特徵點檢測 - 資料集整理

資料集中空值替換成對應特徵的平均值

Keras之MLP：利用MLP【Input(8)→(12)(relu)→O(sigmoid+二元交叉)】模型實現預測新資料(利用糖尿病資料集的八個特徵預測一個0或1）

Keras之DNN：利用DNN【Input(8)→(12+8)(relu)→O(sigmoid)】模型實現預測新資料(利用糖尿病資料集的八個特徵預測一個0或1）

Keras之DNN：利用DNN演算法【Input(8)→12+8(relu)→O(sigmoid)】利用糖尿病資料集訓練、評估模型(利用糖尿病資料集中的八個引數特徵預測一個0或1結果)

特徵提取演算法提取二進位制後面的特徵資料，使用Java流實現

人臉識別，解析MS-Celeb-1M人臉資料集及FaceImageCroppedWithAlignment.tsv檔案提取【人臉識別】解析MS-Celeb-1M人臉資料集及FaceImageCroppedWithAlignment.tsv檔案提取

Python實現DescionTree決策樹 --- 選擇切分資料集的最佳特徵

資料預處理：原始資料集，特徵數值化，特徵值數值化

spark機器學習筆記：（二）用Spark Python進行資料處理和特徵提取

基於IRIS（鳶尾花）資料集使用sklearn的特徵工程練習

Zero-Shot Learing零樣本學習資料集分享（GoogleNet 提取）

DL之NN：(sklearn自帶資料集為1797個樣本*64個特徵)利用NN之sklearn、NeuralNetwor.py實現手寫數字圖片識別95%準確率

sklean 資料集特徵提取

相關推薦