特徵降維

阿新 • • 發佈：2022-04-21

特徵降維的意義：

　　減小矩陣的維度，提高演算法效率

降維的方式：

　　Filter：過濾法是按照發散性或相關性對特徵進行評分，如方差法（刪除方差小於閾值的特徵）、皮爾森相關係數法、卡方檢驗、互資訊法

　　　　

1 from sklearn.feature_selection import *
2 from sklearn.datasets import load_boston
3 boston = load_boston()
4 data = boston.data #使用sklearn內建資料
5 target = boston.target #使用sklearn內建資料
6 variance = VarianceThreshold(threshold=0.1) # 
方差低於0.1的特徵將被捨棄
7 variance.fit(data)
8 print(variance.transform(data))

方差法

1 from sklearn.feature_selection import *
2 from sklearn.datasets import load_boston
3 boston = load_boston()
4 data = boston.data #使用sklearn內建資料
5 target = boston.target #使用sklearn內建資料
6 sk = SelectKBest(k=8) #保留相關性最高的前k個特徵 

7 sk.fit(data,y=target)
8 print(sk.transform(data).shape)
9 print(sk.scores_)

相關係數法

SelectBest可傳入用於評分的函式，傳入chi2表示使用卡方分佈，f_regression用於迴歸任務

　　　卡方檢驗法需要用到卡方公式，observed為目標實際出現的次數，expected為目標的期望出現次數，查詢卡方分佈臨界表，刪除卡方小於閾值的特徵

 1 from sklearn.feature_selection import *
 2 from sklearn.datasets import load_boston
 
 3 from sklearn.linear_model import LogisticRegression #匯入邏輯迴歸模型
 4 bos = load_boston() # 讀取sklearn內建資料
 5 data = np.array(bos.data) # 讀取sklearn內建資料 特徵值
 6 target = np.array(bos.target) # 讀取sklearn內建資料 標籤
 7 estimator = LogisticRegression() #呼叫邏輯迴歸
 8 selector = RFE(estimator, step=5) #呼叫遞迴法，step為遞迴的次數
 9 selector = selector.fit(data, target.astype('int')) #分類問題要將標籤轉為int型別
10 print(selector.support_) # 滿足條件的特徵返回True，其他返回False
11 print(selector.n_features_) #保留的特徵數
12 print(selector.ranking_) 
13 print(selector.transform(data))

遞迴消除特徵法

 1 import numpy as np
 2 from sklearn.feature_selection import *
 3 from sklearn.datasets import load_boston
 4 from sklearn.linear_model import LogisticRegression #匯入邏輯迴歸模型
 5 bos = load_boston() # 讀取sklearn內建資料
 6 data = np.array(bos.data) # 讀取sklearn內建資料 特徵值
 7 target = np.array(bos.target) # 讀取sklearn內建資料 標籤
 8 estimator = LogisticRegression(penalty='l2',C=0.1) #呼叫邏輯迴歸
 9 selector = SelectFromModel(estimator, threshold=0.04) #刪除係數小於0.04的特徵
10 selector.fit(data, target.astype('int')) #分類問題要將標籤轉為int型別
11 print(selector.transform(data))
12 print(selector.estimator_.coef_)

嵌入法示例

　　Wrapper:包裝法是選用部分特徵嘗試訓練結果，每次選取不同的特徵組合，尋找最優組合

　　Embedded：嵌入法會計算每個特徵的權重，去除權重小於閾值的特徵。

python機器學習-特徵降維

方法 Filter(過濾式)：主要探究特徵本身特點、特徵與特徵和目標值之間關聯方差選擇法：低方差特徵過濾

什麼是機器學習的特徵工程？【資料集特徵抽取（字典，文字TF-Idf）、特徵預處理（標準化，歸一化）、特徵降維（低方差，相關係數，PCA）】

2.特徵工程 2.1 資料集 2.1.1 可用資料集 Kaggle網址：https://www.kaggle.com/datasets UCI資料集網址： http://archive.ics.uci.edu/ml/

特徵降維

特徵降維的意義：　　減小矩陣的維度，提高演算法效率降維的方式：　　Filter：過濾法是按照發散性或相關性對特徵進行評分，如方差法（刪除方差小於閾值的特徵）、皮爾森相關係數法、卡方檢驗、互資訊法

python實現拉普拉斯特徵圖降維示例

這種方法假設樣本點在光滑的流形上，這一方法的計算資料的低維表達，區域性近鄰資訊被最優的儲存。以這種方式，可以得到一個能反映流形的幾何結構的解。

PCA演演算法 | 資料集特徵數量太多怎麼辦？用這個演演算法對它降維打擊！

本文始發於個人公眾號：TechFlow，原創不易，求個關注今天是機器學習專題的第27文章，我們一起來聊聊資料處理領域的降維(dimensionality reduction)演演算法。

P12 資料的降維及特徵選擇

https://www.bilibili.com/video/BV184411Q7Ng?p=12 註解：這裡了的降維不是指陣列的維度，不是1維、2維、3維那個維。

機器學習—降維-特徵選擇6-1（過濾法）

使用過濾法對糖尿病資料集降維主要步驟流程： 1. 匯入包 2. 匯入資料集 3. 資料預處理

機器學習—降維-特徵選擇6-2（包裝法）

使用包裝法對糖尿病資料集降維（遞迴特徵消除法）主要步驟流程： 1. 匯入包

機器學習—降維-特徵選擇6-3（PCA）

使用PCA對糖尿病資料集降維主要步驟流程： 1. 匯入包 2. 匯入資料集 3. 資料預處理

機器學習—降維-特徵選擇6-5（LDA方法）

使用LDA對糖尿病資料集降維主要步驟流程： 1. 匯入包 2. 匯入資料集 3. 資料預處理

python實現PCA降維的示例詳解

概述本文主要介紹一種降維方法，PCA（Principal Component Analysis，主成分分析）。降維致力於解決三類問題。

python資料預處理方式 :資料降維

資料為何要降維資料降維可以降低模型的計算量並減少模型執行時間、降低噪音變數資訊對於模型結果的影響、便於通過視覺化方式展示歸約後的維度資訊並減少資料儲存空間。因此，大多數情況下，當我們面臨高維資料時，都

使用python實現多維資料降維操作

一，首先介紹下多維列表的降維 def flatten(a): for each in a: if not isinstance(each,list):

python程式碼實現TSNE降維資料視覺化教程

TSNE降維降維就是用2維或3維表示多維資料（彼此具有相關性的多個特徵資料）的技術，利用降維演算法，可以顯式地表現資料。（t-SNE）t分佈隨機鄰域嵌入是一種用於探索高維資料的非線性降維演算法。它將多維資料對映

Tensorflow中的降維函式tf.reduce_*使用總結

在使用tensorflow時常常會使用到tf.reduce_*這類的函式，在此對一些常見的函式進行彙總

JS陣列降維的實現Array.prototype.concat.apply([], arr)

把多維陣列（尤其是二維陣列）轉化為一維陣列是業務開發中的常用邏輯，最近跟著黃軼老師學習Vue2.6.1.1版本原始碼時,看到原始碼對二維陣列降維的程式碼,所以這裡來寫一篇,記錄一下,加強印象

js最全的陣列的降維5種辦法(小結)

業務開發中，二維陣列、多維陣列轉為一維陣列這種需求是少不了的，有些多維數組裡面可能巢狀會更深，陣列降維就是來解決此問題的

實現pca降維-Python實現

PCA:主成分分析-Python實現，X:[2500,784],把X降到50維 1 def pca(X=np.array([]), no_dims=50):

狀態壓縮技巧：動態規劃的降維打擊

本文由labuladong原創，本博文僅作為知識點學習，不會用於任何商業用途！動態規劃技巧對於演算法效率的提升非常可觀，一般來說都能把指數級和階乘級時間複雜度的演算法優化成 O(N^2)，堪稱演算法界的二向箔，把各路

主成分分析PCA資料降維原理及python應用（葡萄酒案例分析）

目錄主成分分析（PCA）——以葡萄酒資料集分類為例　　1、認識PCA 　　　　（1）簡介