機器學習——資料降維

阿新 • • 發佈：2018-11-21

特徵選擇

選擇特徵就是單純地從提取到的所有特徵種選擇部分特徵作為訓練集特徵，特徵在選擇前和選擇後可以改變值，也不改變值，但是選擇後的特徵維度肯定比選擇前小，畢竟我們只選擇了其中的一部分特徵。

主要方法（三大武器）：Filter（過濾器）：VarianceThreshold

嵌入式（嵌入式）：正則化，決策樹

包裝（包裹式）

sklearn特徵選擇API：sklearn.feature_selection.VarianceThreshold

VarianceThreshold（閾值= 0.0）

刪除所有低方差特徵

Variance.fit_transform（X）

X：numpy陣列格式的資料[n_samples，n_features]

返回值：訓練集差異低於閾值的特徵將被刪除

預設值是保留所有非零方差特徵，即刪除所有樣本中具有相同值的特徵

下面程式碼實現：

from sklearn.feature_selection import VarianceThreshold
def var():
    """
    特徵選擇-刪除低方差的特徵
    return:
    """
    var=VarianceThreshold(threshold=0.0)
    data=var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]])
    print(data)
    return None
if __name__=="__main":
    var()

閾值預設為0.0表示刪除相同特徵

執行效果如下：

PCA

特徵數量達到上百的時候考慮使用PCA

本質：PCA是一種分析，簡化資料集的技術

目的：是資料維度壓縮，儘可能降低原資料的維度（複雜度），損失少量資訊。

作用：可以削減迴歸分析或者聚類分析中特徵的數量

PCA（n_components =無）

將資料分解為較低維度空間

PCA.fit_transform（X）

X：numpy陣列格式的資料[n_samples，n_features]

返回值：轉換後指定維度的陣列

下面使用程式碼實現：

from sklearn.decomposition import PCA
def pac():
    """
    主成分分析進行特徵降維
    :return:
    """
    pac= PCA(n_components=0.9)
    data=pac.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])
    print(data)
    return None
if __name__=="__main":
    pac()

執行結果如下：

案例演示

探究使用者對物品類別的喜歡細分降維

資料:

products.csv 商品資訊
order_products_prior.csv 訂單與商品資訊
ordes.csv 使用者的訂單資訊
aisles.csv 商品所屬具體物品類別

下面是部分資料截圖如下:

如果想要資料的話留言私聊小文

程式碼執行結果如下(讀取表的時候注意資料大小):

import pandas as pd
from sklearn.decomposition import PCA
#讀取四張表的資料
prior=pd.read_csv("./all/order_products__prior.csv")
products=pd.read_csv("./all/products.csv")
orders=pd.read_csv("./all/orders.csv")
aisles=pd.read_csv("./all/aisles.csv")
#合併四張表到一張表(使用者-物品類別)
_mg=pd.merge(prior,products,on=['product_id','product_id'])
_mg=pd.merge(_mg,orders,on=['order_id','order_id'])
_mg=pd.merge(_mg,aisles,on=['aisle_id','aisle_id'])
_mg.head(10)
cross=pd.crosstab9_mg['user_id'],_mg['aisle'])
corss.head(10)
pca=PCA(n_components=0.9)
data=pca.fit_transform(cross)
print(data)

執行結果如下:

機器學習——資料降維

特徵選擇選擇特徵就是單純地從提取到的所有特徵種選擇部分特徵作為訓練集特徵，特徵在選擇前和選擇後可以改變值，也不改變值，但是選擇後的特徵維度肯定比選擇前小，畢竟我們只選擇了其中的一部分特徵。主要方法（三大武器）：Filter（過濾器）：VarianceThreshold

python大戰機器學習——資料降維

注：因為公式敲起來太麻煩，因此本文中的公式沒有呈現出來，想要知道具體的計算公式，請參考原書中內容　　　　降維就是指採用某種對映方法，將原高維空間中的資料點對映到低維度的空間中 1、主成分分析（PCA）　　將n維樣本X通過投影矩陣W，轉換為K維矩陣Z 　　輸入：樣本集D，低維空間d 　　輸出：投影矩陣W

機器學習—PCA降維

one 因此表示實現維度非監督學習衡量取出計算方法 1、基本思想：　　主成分分析（Principal components analysis，以下簡稱PCA）是最重要的降維方法之一。在數據壓縮消除冗余和數據噪音消除等領域都有廣泛的應用。　　PCA顧名思義，

機器學習演算法--降維技術

當資料集維數較高時，往往會出現樣本稀疏以及距離難以計算等問題，而某個學習任務可能僅與資料的某個低維分佈有關，因此可以採用降維技術來變換資料空間座標系，主要有： LDA線性判別分析 PCA主成分分析 ICA獨立成分分析 FA因子分析 SVD奇異值分解維數災難：資

機器學習-PCA降維與DBScan聚類分析實戰

基本概念：　　在資料處理中，經常會遇到特徵維度比樣本數量多得多的情況，如果拿到實際工程中去跑，效果不一定好。一是因為冗餘的特徵會帶來一些噪音，影響計算的結果；二是因為無關的特徵會加大計算量，耗費時間和資源。所以我們通常會對資料重新變換一下，再跑模型。資料變換的目的不僅僅是降維，還可以消除特徵之間的相關性，

機器學習筆記——降維（dimensionality reduction）

降維目的我們對資料進行降維的目的有兩個：一個是資料壓縮，對於資料壓縮我們可以大大地節省儲存空間第二就是使得資料可以視覺化，我們將多維資料壓縮成二維可以供我們更好地觀察資料的特徵主成分分析（PAC）主成分分析法可以將n維的資料降為k維，實際上我們是選取了一個k

機器學習四大降維方法

引言：機器學習領域中所謂的降維就是指採用某種對映方法，將原高維空間中的資料點對映到低維度的空間中。降維的本質是學習一個對映函式 f : x->y，其中x是原始資料點的表達，目前最多使用向量表達形式。 y是資料點對映後的低維向量表達，通常y的維度小於x的維度（當然提高維度也是可以的）。f可能是顯

機器學習-->特徵降維方法總結

本篇博文主要總結一下機器學習裡面特徵降維的方法，以及各種方法之間的聯絡和區別。機器學習中我個人認為有兩種途徑可以來對特徵進行降維，一種是特徵抽取，其代表性的方法是PCA,SVD降維等，另外一個途徑就是特徵選擇。特徵抽取先詳細講下PCA降維的原理

一、降維——機器學習筆記——降維（特徵提取）

目錄 2、示例一、為什麼要降維維數災難：在給定精度下，準確地對某些變數的函式進行估計，所需樣本量會隨著樣本維數的增加而呈指數形式增長。降維的意義：克服維數災難，獲取本質特徵，節省儲存空間，去除無用噪聲，實現資料視覺化

機器學習：降維演算法-主成分分析PCA演算法兩種角度的推導

若把高維空間的樣本點（可以想象是一個3維的）對映到一個超平面，怎樣的超平面可以認為是“好的”，可以想到這個超平面大概有這樣的性質：最近重構行：樣本點到超平面的距離都足夠近；（樣本點變化儘可能小，丟失的資訊儘可能少）最大可分性：樣本點在這個超平面上的投影儘可能分開.（樣

機器學習筆記簿降維篇 LDA 01

機器學習中包含了兩種相對應的學習型別：**無監督學習**和**監督學習**。**無監督學習**指的是讓機器只從資料出發，挖掘資料本身的特性，對資料進行處理，PCA就屬於無監督學習，因為它只根據資料自身來構造投影矩陣。而**監督學習**將使用資料和資料對應的標籤，我們希望機器能夠學習到資料和標籤的關係，例如分類

【火爐煉AI】機器學習053-資料降維絕招-PCA和核PCA

【火爐煉AI】機器學習053-資料降維絕招-PCA和核PCA (本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 主成分分析（Principal Component Analysis, PCA)可以

機器學習-3.資料特徵預處理與資料降維

特徵預處理定義：通過特定的統計方法（數學方法）將資料轉換成演算法要求的資料。處理方法數值型資料：標準縮放（1.歸一化，2.標準化）；缺失值。類別型資料：one-hot編碼。時間型別：時間的切分。預處理API：sklear

機器學習實戰（Machine Learning in Action）學習筆記————10.奇異值分解(SVD)原理、基於協同過濾的推薦引擎、資料降維

關鍵字：SVD、奇異值分解、降維、基於協同過濾的推薦引擎作者：米倉山下時間：2018-11-3機器學習實戰（Machine Learning in Action,@author: Peter Harrington）原始碼下載地址：https://www.manning.com/books/machine-le