資料科學和人工智慧技術筆記八、特徵選擇

阿新 • • 發佈：2018-12-28

八、特徵選擇

作者：Chris Albon

譯者：飛龍

協議：CC BY-NC-SA 4.0

用於特徵選取的 ANOVA F 值

如果特徵是類別的，計算每個特徵與目標向量之間的卡方（ $\chi^{2}$ ）統計量。但是，如果特徵是定量的，則計算每個特徵與目標向量之間的 ANOVA F 值。

F 值得分檢查當我們按照目標向量對數字特徵進行分組時，每個組的均值是否顯著不同。

# 載入庫
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif

# 載入鳶尾花資料
iris = load_iris()

# 建立特徵和標籤
X = iris.data
y = iris.target

# 建立 SelectKBest 物件來選擇兩個帶有最佳 ANOVA F 值的特徵 

fvalue_selector = SelectKBest(f_classif, k=2)

# 對 SelectKBest 物件應用特徵和標籤
X_kbest = fvalue_selector.fit_transform(X, y)

# 展示結果
print('Original number of features:', X.shape[1])
print('Reduced number of features:', X_kbest.shape[1])

'''
Original number of features: 4
Reduced number of features: 2 
'''

用於特徵選擇的卡方

# 載入庫
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

# 載入鳶尾花資料
iris = load_iris()

# 建立特徵和目標
X = iris.data
y = iris.target

# 通過將資料轉換為整數，轉換為類別資料
X = X.astype(int)

# 選擇兩個卡方統計量最高的特徵
chi2_selector = SelectKBest(chi2, k=2)
X_kbest = chi2_selector.fit_transform(X, y)

# 展示結果
print('Original number of features:', X.shape[1])
print('Reduced number of features:', X_kbest.shape[1])

'''
Original number of features: 4
Reduced number of features: 2 
'''

丟棄高度相關的特徵

# 載入庫
import pandas as pd
import numpy as np

# 建立特徵矩陣，具有兩個高度相關特徵
X = np.array([[1, 1, 1],
              [2, 2, 0],
              [3, 3, 1],
              [4, 4, 0],
              [5, 5, 1],
              [6, 6, 0],
              [7, 7, 1],
              [8, 7, 0],
              [9, 7, 1]])

# 將特徵矩陣轉換為 DataFrame
df = pd.DataFrame(X)

# 檢視資料幀
df

	0	1	2
0	1	1	1
1	2	2	0
2	3	3	1
3	4	4	0
4	5	5	1
5	6	6	0
6	7	7	1
7	8	7	0
8	9	7	1

# 建立相關度矩陣
corr_matrix = df.corr().abs()

# 選擇相關度矩陣的上三角
upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(np.bool))

# 尋找相關度大於 0.95 的特徵列的索引
to_drop = [column for column in upper.columns if any(upper[column] > 0.95)]

# 丟棄特徵
df.drop(df.columns[to_drop], axis=1)

	0	2
0	1	1
1	2	0
2	3	1
3	4	0
4	5	1
5	6	0
6	7	1
7	8	0
8	9	1

遞迴特徵消除

# 載入庫
from sklearn.datasets import make_regression
from sklearn.feature_selection import RFECV
from sklearn import datasets, linear_model
import warnings

# 消除煩人但無害的警告
warnings.filterwarnings(action="ignore", module="scipy", message="^internal gelsd")

# 生成特徵矩陣，目標向量和真實相關度
X, y = make_regression(n_samples = 10000,
                       n_features = 100,
                       n_informative = 2,
                       random_state = 1)

# 建立線性迴歸
ols = linear_model.LinearRegression()

# 建立遞迴特徵消除器，按照 MSE 對特徵評分
rfecv = RFECV(estimator=ols, step=1, scoring='neg_mean_squared_error')

# 擬合遞迴特徵消除器
rfecv.fit(X, y)

# 遞迴特徵消除
rfecv.transform(X)

'''
array([[ 0.00850799,  0.7031277 , -1.2416911 , -0.25651883, -0.10738769],
       [-1.07500204,  2.56148527,  0.5540926 , -0.72602474, -0.91773159],
       [ 1.37940721, -1.77039484, -0.59609275,  0.51485979, -1.17442094],
       ..., 
       [-0.80331656, -1.60648007,  0.37195763,  0.78006511, -0.20756972],
       [ 0.39508844, -1.34564911, -0.9639982 ,  1.7983361 , -0.61308782],
       [-0.55383035,  0.82880112,  0.24597833, -1.71411248,  0.3816852 ]]) 
'''

# 最佳特徵數量
rfecv.n_features_

# 5

方差閾值二元特徵

from sklearn.feature_selection import VarianceThreshold

# 建立特徵矩陣：
# 特徵 0：80% 的類 0
# 特徵 1：80% 的類 1
# 特徵 2：60% 的類 0，40% 的類 1
X = [[0, 1, 0],
     [0, 1, 1],
     [0, 1, 0],
     [0, 1, 1],
     [1, 0, 0]]

在二元特徵（即伯努利隨機變數）中，方差計算如下：

$\operatorname {Var} (x)= p(1-p)$

其中 $p$ 是類 1 觀測的比例。因此，通過設定 $p$ ，我們可以刪除絕大多數觀察是類 1 的特徵。

# Run threshold by variance
thresholder = VarianceThreshold(threshold=(.75 * (1 - .75)))
thresholder.fit_transform(X)

'''
array([[0],
       [1],
       [0],
       [1],
       [0]]) 
'''

用於特徵選擇的方差閾值

from sklearn import datasets
from sklearn.feature_selection import VarianceThreshold

# 載入鳶尾花資料
iris = datasets.load_iris()

# 建立特徵和目標
X = iris.data
y = iris.target

# 使用方差閾值 0.5 建立 VarianceThreshold 物件
thresholder = VarianceThreshold(threshold=.5)

# 應用方差閾值
X_high_variance = thresholder.fit_transform(X)

# 檢視方差大於閾值的前五行
X_high_variance[0:5]

'''
array([[ 5.1,  1.4,  0.2],
       [ 4.9,  1.4,  0.2],
       [ 4.7,  1.3,  0.2],
       [ 4.6,  1.5,  0.2],
       [ 5\. ,  1.4,  0.2]]) 
'''

資料科學和人工智慧技術筆記八、特徵選擇

八、特徵選擇作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 用於特徵選取的 ANOVA F 值如果特徵是類別的，計算每個特徵與目標向量之間的卡方（

資料科學和人工智慧技術筆記七、特徵工程

七、特徵工程作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 稀疏特徵矩陣上的降維 # 載入庫 from sklearn.preprocessing import StandardScaler from sklearn.d

資料科學和人工智慧技術筆記十、模型選擇

十、模型選擇作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 在模型選擇期間尋找最佳預處理步驟在進行模型選擇時，我們必須小心正確處理預處理。首先，GridSearchCV使用交叉驗證來確定哪個模型表現最好。然而，在交

資料科學和人工智慧技術筆記六、日期時間預處理

六、日期時間預處理作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 把日期和時間拆成多個特徵 # 載入庫 import pandas as pd # 建立資料幀 df = pd.DataFrame() # 建立五個日期

資料科學和人工智慧技術筆記五、文字預處理

五、文字預處理作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 詞袋 # 載入庫 import numpy as np from sklearn.feature_extraction.text import Coun

資料科學和人工智慧技術筆記四、影象預處理

四、影象預處理作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 影象二值化 # 載入庫 import cv2 import numpy as np from matplotlib import pyplot as plt

資料科學和人工智慧技術筆記三、資料預處理

三、資料預處理作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 為 Scikit-Learn 轉換 Pandas 類別資料 # 匯入所需的庫 from sklearn import preprocessing import

資料科學和人工智慧技術筆記二、資料準備

二、資料準備作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 從字典載入特徵 from sklearn.feature_extraction import DictVectorizer staff = [{'name':

資料科學和人工智慧技術筆記一、向量、矩陣和陣列

一、向量、矩陣和陣列作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 轉置矩陣或向量 # 載入庫 import numpy as np # 建立向量 vector = np.array([1, 2, 3, 4, 5, 6

資料科學和人工智慧技術筆記九、模型驗證

九、模型驗證作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 準確率 # 載入庫 from sklearn.model_selection import cross_val_score from sklearn.li

資料科學和人工智慧技術筆記十三、樹和森林

十三、樹和森林作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 Adaboost 分類器 # 載入庫 from sklearn.ensemble import AdaBoostClassifier from skle

資料科學和人工智慧技術筆記十八、Keras

十八、Keras 作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 新增丟棄 # 載入庫 import numpy as np from keras.datasets import imdb from keras.pr

資料科學和人工智慧技術筆記十一、線性迴歸

十一、線性迴歸作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 新增互動項 # 載入庫 from sklearn.linear_model import LinearRegression from sklearn.d

資料科學和人工智慧技術筆記十五、支援向量機

十五、支援向量機作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 校準 SVC 中的預測概率 SVC 使用超平面來建立決策區域，不會自然輸出觀察是某一類成員的概率估計。但是，我們實際上可以通過一些技巧輸出校準的類概率。

資料科學和人工智慧技術筆記十四、K 最近鄰

十四、K 最近鄰作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 確定 K 的最佳值 # 載入庫 from sklearn.neighbors import KNeighborsClassifier from skl

資料科學和人工智慧技術筆記十二、邏輯迴歸

十二、邏輯迴歸作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 C 超引數快速調優有時，學習演算法的特徵使我們能夠比蠻力或隨機模型搜尋方法更快地搜尋最佳超引數。 scikit-learn 的LogisticRegre

資料科學和人工智慧技術筆記二十一、統計學

二十一、統計學作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 貝塞爾校正貝塞爾的校正是我們在樣本方差和樣本標準差的計算中使用 n

資料科學和人工智慧技術筆記二十、資料視覺化

二十、資料視覺化作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 MatPlotLib 中的雙向條形圖 %matplotlib inline import pandas as pd import matplotlib.py

資料科學和人工智慧技術筆記十七、聚類

十七、聚類作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 凝聚聚類 # 載入庫 from sklearn import datasets from sklearn.preprocessing import Stan

資料科學和人工智慧技術筆記十六、樸素貝葉斯

十六、樸素貝葉斯作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 伯努利樸素貝葉斯伯努利樸素貝葉斯分類器假設我們的所有特徵都是二元的，它們僅有兩個值（例如，已經是獨熱編碼的標稱分類特徵）。 # 載入庫 import

資料科學和人工智慧技術筆記 八、特徵選擇

八、特徵選擇

用於特徵選取的 ANOVA F 值

用於特徵選擇的卡方

丟棄高度相關的特徵

遞迴特徵消除

方差閾值二元特徵

用於特徵選擇的方差閾值

相關推薦

資料科學和人工智慧技術筆記八、特徵選擇