【特征選擇】過濾式特征選擇法

阿新 • • 發佈：2018-04-30

ont topk 泛化能力 cccccc 大於 pre 定性輸出 eat

# 過濾式特征選擇法的原理

使用發散性或相關性指標對各個特征進行評分，選擇分數大於閾值的特征或者選擇前K個分數最大的特征。

# 過濾式特征選擇法的特點

特征選擇過程與學習器無關，相當於先對初始特征進行過濾，再用過濾後的特征訓練學習器。過濾式特征選擇法簡單、易於運行、易於理解，通常對於理解數據有較好的效果，但對特征優化、提高模型泛化能力來說效果一般。

# 常用的過濾式特征選擇法

方差選擇法

使用方差作為特征評分標準，如果某個特征的取值差異不大，通常認為該特征對區分樣本的貢獻度不大，因此在構造特征過程中去掉方差小於閾值的特征。註意：

方差選擇法適用於離散型特征，連續型特征需要須離散化後使用；方差較小的特征很少，方差選擇法簡單但不好用，一般作為特征選擇的預處理步驟，先去掉方差較小的特征，然後使用其他特征選擇方法選擇特征。

# -*- coding: utf-8 -*-
# 載入數據
from sklearn.datasets import load_iris
iris = load_iris()
print("iris特征名稱\n",iris.feature_names)
print("iris特征矩陣\n",iris.data)

# 特征選擇--方差選擇法
from sklearn.feature_selection import VarianceThreshold
vt  
= VarianceThreshold(threshold = 1)  # threshold為方差的閾值，默認0
vt = vt.fit_transform(iris.data)       # 函數返回值為特征選擇後的特征
print("方差選擇法選擇的特征\n",vt)

卡方檢驗法（分類問題）

使用統計量卡方檢驗作為特征評分標準，卡方檢驗值越大，相關性越強（卡方檢驗是評價定性自變量對定性因變量相關性的統計量）

# -*- coding: utf-8 -*-
# 載入數據
from sklearn.datasets import load_iris
iris = load_iris()

# 特征選擇
 
from sklearn.feature_selection import SelectKBest # 移除topK外的特征
from sklearn.feature_selection import chi2        # 卡方檢驗

skb = SelectKBest(chi2,k=2)
new_data = skb.fit_transform(iris.data,iris.target)

皮爾森相關系數法法（回歸問題）

使用pearson系數作為特征評分標準，相關系數絕對值越大，相關性越強（相關系數越接近於1或-1時，相關性越強；相關系數越接近於0時，相關性越弱）。

# -*- coding: utf-8 -*-
# 載入數據
from sklearn.datasets import load_iris
irisdata = load_iris()

# 特征選擇（pearson相關系數法）
from sklearn.feature_selection import SelectKBest  # 移除topK外的特征
from scipy.stats import pearsonr                   # 計算皮爾森相關系數
from numpy import array

"""
# 函數返回值：保留topk特征，移除topk外特征
# 第一個參數：皮爾森相關系數（輸入特征矩陣和目標向量，輸出二元組（評分，P），二數組第i項為第i個特征的評分和p值
# 第二個參數：topK個數
"""
skb = SelectKBest(lambda X, Y: tuple(map(tuple,array(list(map(lambda x:pearsonr(x, Y), X.T))).T)), k=3)
skb = skb.fit_transform(irisdata.data, irisdata.target)

【特征選擇】過濾式特征選擇法

ont topk 泛化能力 cccccc 大於 pre 定性輸出 eat # 過濾式特征選擇法的原理使用發散性或相關性指標對各個特征進行評分，選擇分數大於閾值的特征或者選擇前K個分數最大的特征。 # 過濾式特征選擇法的特點特征選

【mac動態桌面】加州懷特山狐尾鬆古森林4K高清動態桌布

為你帶來加州懷特山狐尾鬆古森林4K高清動態桌布，狐尾鬆是世界上年齡最老的物種之一狐尾鬆。在加利福尼亞州懷特山中有著一個狐尾鬆古森林，這套加州懷特山狐尾鬆動態桌面就為您展現了狐尾鬆古森林的美麗景象，加州懷特山狐尾鬆動態桌面僅適用於MacOS10.14系統。加州懷特山狐尾鬆古森林4K高清動態桌布下

【類型轉換】隱式轉換自動提升強制轉換

最大直接歸納隱式轉換微軟雅黑 mil 邊界操作行數基本數據類型的類型轉換Java中基本數據類型共有8種，分別是：布爾型boolean，字符型char和數值型byte/short/int/long/float/double。由於字符型char所表示的單個字符與A

【C++學習筆記】鏈式前向星

strong align 出發 max 當前 ret return clu ali 　鏈式前向星是一種常見的儲存圖的方式（是前向星存圖法的優化版本），支持增邊和查詢，但不支持刪邊（如果想要刪除指定的邊建議用鄰接矩陣）。儲存方式　　首先定義數組 head[ i ] 來

【圖解資料結構】一組動畫演示選擇排序

前言由於LeetCode上的演算法題很多涉及到一些基礎的資料結構，為了更好的理解後續更新的一些複雜題目的動畫，推出一個新系列 -----《圖解資料結構》，主要使用動畫來描述常見的資料結構和演算法。本系列包括十大排序、堆、佇列、樹、並查集、圖等等大概幾十篇。選擇排序選擇排序是一種簡單直觀的排序演算法

【一品優卡】一品哥：如何選擇一個好行業踏實賺錢

嗨，你好！我是一品哥第一期的視訊裡我分享了我的個人成長經歷，沒有觀看的朋友可以在一品優卡的公眾號裡回覆第一期三個字，我馬上發給你。這期視訊我們的主題是如何選擇一個好的產品，精耕細作，踏實賺錢。在之前，我也做過很多的產品，自己操作過很多的專案，也

【智慧優化演算法】遺傳演算法的精英選擇策略、期望選擇策略

這兩個策略，不好檢索。我從中英論文中找到了解釋，貼在這裡。（1）最優儲存策略這段英文不夠具體，我找到了對應中文解釋（見論文：遺傳演算法在分配問題中的應用）：（2）期望選擇策略這段英文同樣很籠統，我還是找到了中文解釋，但是換了個名稱（（見論文：遺傳演算法在

【Scala型別系統】隱式轉換與隱式引數

隱式轉換隱式轉換是使用implicit修飾的帶有單個引數的普通函式。這種函式將自動應用，將值從一種型別轉換為另一種型別。舉例說明：我們想將整數n轉換為分數n/1，定義implicit def int2Fraction(n: Int) =

【逆襲成功】許式偉：十一年逆流順流，首席架構師到CEO

許式偉，七牛雲端儲存CEO，國內Go語言圈領軍人物，ECUG社群發起人。許式偉的經歷頗有傳奇性，大學時就有“C狂”外號的他，憑一份手寫簡歷成功應聘金山，兩年後成長為首席架構師，領導WPS 2005長達3年的研發。2006年，公司從軟體向網際網路轉型，許式偉建立金山實驗室，以

【洛谷P2114】起床困難綜合征位運算+貪心

name turn ons 給定 char 固定 har namespace ace 題目大意：給定 N 個操作，每個操作為按位與、或、異或一個固定的數字，現在要求從 0 到 M 中任選一個數字，使得依次經過 N 個操作後的值最大。題解：位運算有一個重要的性質是：位運算時

【2015-2016 ACM-ICPC, NEERC, Southern Subregional Contest B】【暴力雙排序】Layer Cake 若干矩形選擇相同長和寬的最大體積

Dasha decided to bake a big and tasty layer cake. In order to do that she went shopping and boughtnrectangular cake layers. The length and the width of t

【C語言程式設計】編寫一個程式解決選擇問題，令k=n/2

初次看到這個題目時有點懵，能力有限，沒法寫出高效版，先碼個高時間複雜度的（O(N^2)）： #include<stdio.h> void sort(int a[]); int main() { int a[10]={1,4,2,34,12,5,

3.【Spring Cloud Alibaba】宣告式HTTP客戶端-Feign

使用Feign實現遠端HTTP呼叫什麼是Feign Feign是Netflix開源的宣告式HTTP客戶端 GitHub地址：https://github.com/openfeign/feign 實現 pom.xml <dependency> <groupId>org.sp

【視頻+文字】劉素雲老師：法雨惠群生--老實念佛不拐彎今生一定到彼岸(附凈空老法師點評)

kvc 簡單的時代地獄教你藥物 html 深深 media 劉素雲老師常念阿彌陀佛 2015-09-08 法雨惠群生 ——老實念佛不拐彎　今生一定到彼岸 2015年9月4日上午十點首播的《無量壽經科註第四回學習班》第165集

【python學習筆記】13：用梯度下降法求解最優值問題

梯度是函式在某點沿每個座標的偏導數構成的向量，它反映了函式沿著哪個方向增加得最快。因此要求解一個二元函式的極小值，只要沿著梯度的反方向走，直到函式值的變化滿足精度即可。這裡打表儲存了途徑的每個點，最後在圖上繪製出來以反映路徑。 *梯度下降的具體實現 impor

【機器學習筆記】最大似然估計法與LR中 J of theta 的概率解釋

看公開課的時候再次遇到，決心搞懂他… 首先是Andrew Ng在公開課中提到為什麼LR的損失函式要用最小二乘，給出了概率解釋，是在樣本誤差服從IID，並且誤差整體服從高斯分佈的最大似然函式的log表出。最大似然估計法先從一個比較普遍的例子講起：

uoj#300.【CTSC2017】吉夫特

com long long cnblogs oid using mes bin sin ans 題面：http://uoj.ac/problem/300 一道大水題，然而我並不知道$lucas$定理的推論。。 $\binom{n}{m}$為奇數的充要條件是$n&a

scikit-learn：4.2. Feature extraction（特征提取，不是特征選擇）

for port ould 詞匯 ret sim hide pla pip http://scikit-learn.org/stable/modules/feature_extraction.html 帶病在網吧裏。。。。。。寫。求支持。。。 1、首先澄

Spark2.0 特征提取、轉換、選擇之二：特征選擇、文本處理，以中文自然語言處理(情感分類)為例

true 方便 linear value taf 文檔 ota ati inter 特征選擇 RFormula RFormula是一個很方便，也很強大的Feature選擇（自由組合的）工具。輸入string 進行獨熱編碼（見下面例子country）輸入數值型轉換為dou

國內長期出售正版印度特羅凱【銷售熱線15701367793】

印度特羅凱厄洛替尼特羅凱說明書印度特羅凱是由印度第一大制藥公司Natco公司生產，它是肺癌最新的生物靶向治療藥物。【全國代購熱線15701367793】。【藥品名稱】特羅凱通用名：鹽酸厄洛替尼片英文商品名：Tavceva。　【成份】每片內含150mg厄洛替尼。【性狀】圓形、雙凸、白色包衣

【特征選擇】過濾式特征選擇法

相關推薦