機器學習-->特徵降維方法總結

阿新 • • 發佈：2019-01-17

本篇博文主要總結一下機器學習裡面特徵降維的方法，以及各種方法之間的聯絡和區別。
機器學習中我個人認為有兩種途徑可以來對特徵進行降維，一種是特徵抽取，其代表性的方法是PCA,SVD降維等，另外一個途徑就是特徵選擇。

特徵抽取

先詳細講下PCA降維的原理

對於n個特徵的m個樣本，將每個樣本寫成行向量，得到矩陣A

這裡寫圖片描述

尋找樣本的主方向u：將m個樣本值投影到某個直線L上，得到m個位於直線L上的點，計算m個投影點的方差。認為方差最大的直線方向就是主方向。那麼如何選取到方差最大的直線方向呢？

我們這裡假定樣本是中心化的，若是沒有去均值化，則計算m個樣本的均值，將樣本真實值減去均值。

我們取投影直線L的延伸方向為u，u即為投影方向，計算矩陣A乘以方向向量u的值得：

這裡寫圖片描述

然後求向量A*u的方差，即計算投影以後的方差：
方差的計算公式為：這裡寫圖片描述，這裡忽略係數，這裡Au即為x向量，其平均值為E，為了使得式子簡單，假設已經做過中心化，那麼E=0，便可得下式：

這裡寫圖片描述

那麼其目標函式即為：

這裡寫圖片描述

回到目標本身，就是要找一個方向u使得方差最大，也就是使得上述的目標函式最大。u是個方向向量，可以加上一個約束條件，這裡寫圖片描述，那麼，再由拉格朗日乘子法得：

要使得目標函式最大，那麼需要對u求偏導得：

這裡寫圖片描述

這裡寫圖片描述即為對稱矩陣的特徵值，u 即為特徵值為對應的特徵向量。

注意矩陣A表示的是n個特徵的m個樣本，這裡寫圖片描述為實對稱矩陣，那麼肯定可以對角化，並且其不同特徵值對應的特徵向量正交，為實對稱矩陣特徵

的特徵值，

為其對應的特徵向量（投影方向）且相互正交，我們把特徵值從大到小排序，這裡我們假設這裡寫圖片描述

，那麼我們可以認為

這個方向是最主要的方向（主分），這裡寫圖片描述

其次。可以自定的選擇幾個主分，那麼就取幾個最主要的方向作為投影方向。

通過以上的分析可以得出，PCA其實就是尋找一個或幾個投影方向，使得樣本值投影以後方差最大。這種投影可以理解對特徵的重構或者是組合。

利用PC降維將特徵從四維降為二維，並且用多項式進行特徵衍生，然後用邏輯迴歸進行分類，並畫出分類後的效果圖。

# -*- coding:utf-8 -*-

import pandas as pd
import numpy as np
from sklearn.decomposition import 
 PCA
from sklearn.linear_model import LogisticRegressionCV
from sklearn import metrics
from sklearn.model_selection import train_test_split
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures


def extend(a, b):
    return 1.05*a-0.05*b, 1.05*b-0.05*a


if __name__ == '__main__':
    pd.set_option('display.width', 200)
    data = pd.read_csv('iris.data', header=None)
    columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'type']
    data.rename(columns=dict(zip(np.arange(5), columns)), inplace=True)
    data['type'] = pd.Categorical(data['type']).codes
    print data.head(5)
    x = data.loc[:, columns[:-1]]
    y = data['type']

    pca = PCA(n_components=2, whiten=True, random_state=0)
    x = pca.fit_transform(x)
    print '各方向方差：', pca.explained_variance_
    print '方差所佔比例：', pca.explained_variance_ratio_
    print x[:5]
    cm_light = mpl.colors.ListedColormap(['#77E0A0', '#FF8080', '#A0A0FF'])
    cm_dark = mpl.colors.ListedColormap(['g', 'r', 'b'])
    mpl.rcParams['font.sans-serif'] = u'SimHei'
    mpl.rcParams['axes.unicode_minus'] = False
    plt.figure(facecolor='w')
    plt.scatter(x[:, 0], x[:, 1], s=30, c=y, marker='o', cmap=cm_dark)#s表示散點圓圈大小，ｃ表示類別,marker表示標記為圓圈，cmp表示不同類的對比顏色
    plt.grid(b=True, ls=':')
    plt.xlabel(u'組份1', fontsize=14)
    plt.ylabel(u'組份2', fontsize=14)
    plt.title(u'鳶尾花資料PCA降維', fontsize=18)
    # plt.savefig('1.png')
    plt.show()

    x, x_test, y, y_test = train_test_split(x, y, train_size=0.7)
    model = Pipeline([
        ('poly', PolynomialFeatures(degree=2, include_bias=True)),
        ('lr', LogisticRegressionCV(Cs=np.logspace(-3, 4, 8), cv=5, fit_intercept=False))
    ])
    model.fit(x, y)
    print '最優引數：', model.get_params('lr')['lr'].C_
    y_hat = model.predict(x)
    print '訓練集精確度：', metrics.accuracy_score(y, y_hat)
    y_test_hat = model.predict(x_test)
    print '測試集精確度：', metrics.accuracy_score(y_test, y_test_hat)

    N, M = 500, 500     # 橫縱各取樣多少個值
    x1_min, x1_max = extend(x[:, 0].min(), x[:, 0].max())   # 第0列的範圍
    x2_min, x2_max = extend(x[:, 1].min(), x[:, 1].max())   # 第1列的範圍
    t1 = np.linspace(x1_min, x1_max, N)
    t2 = np.linspace(x2_min, x2_max, M)
    x1, x2 = np.meshgrid(t1, t2)                    # 生成網格取樣點
    x_show = np.stack((x1.flat, x2.flat), axis=1)   # 測試點
    y_hat = model.predict(x_show)  # 預測值
    y_hat = y_hat.reshape(x1.shape)  # 使之與輸入的形狀相同
    plt.figure(facecolor='w')
    plt.pcolormesh(x1, x2, y_hat, cmap=cm_light)  # 預測值的顯示
    plt.scatter(x[:, 0], x[:, 1], s=30, c=y, edgecolors='k', cmap=cm_dark)  # 樣本的顯示
    plt.xlabel(u'組份1', fontsize=14)
    plt.ylabel(u'組份2', fontsize=14)
    plt.xlim(x1_min, x1_max)
    plt.ylim(x2_min, x2_max)
    plt.grid(b=True, ls=':')
    ## 不同類的區域顯示不同的顏色
    patchs = [mpatches.Patch(color='#77E0A0', label='Iris-setosa'),
              mpatches.Patch(color='#FF8080', label='Iris-versicolor'),
              mpatches.Patch(color='#A0A0FF', label='Iris-virginica')]
    plt.legend(handles=patchs, fancybox=True, framealpha=0.8, loc='lower right')
    plt.title(u'鳶尾花Logistic迴歸分類效果', fontsize=17)
    plt.show()

樣本散點圖：

這裡寫圖片描述

分類後的效果圖：
這裡寫圖片描述

而SVD降維就是對樣本特徵矩陣進行奇異值分解，來得出最主要的成分。有關SVD降維的更詳細內容可以檢視我的另外一篇博文機器學習–>矩陣和線性代數裡相關內容。

特徵選擇

關於特徵選擇的詳細內容可以檢視我的另外一篇博文sklearn特徵選擇。

總結

特徵抽取，特徵選擇都能達到降維的效果，那麼他們之間有什麼區別呢？我個人覺得特徵抽取是對所有特徵進行了組合，或者說是線性變換，或者說是投影，選擇出最好的或者是效果最好的幾個投影方向（變換方式），既保證了資訊最大程度的保留，又使維度降低了。而特徵選擇只是單純的根據某個標準，對特徵的重要程度進行了計算，保留最靠前的，最重要的一些特徵，剔除剩下的不重要的特徵。

無論是特徵抽取還是特徵選擇，都有資訊的丟失，但是他們都是丟失一些相對來說不重要的資訊，保留他們認為重要的資訊。

機器學習-->特徵降維方法總結

特徵抽取

特徵選擇

總結

機器學習-->特徵降維方法總結

機器學習四大降維方法

一、降維——機器學習筆記——降維（特徵提取）

機器學習—PCA降維

機器學習——資料降維

BAT機器學習特徵工程工作經驗總結(一)如何解決資料不平衡問題（附python程式碼）

機器學習演算法--降維技術

python大戰機器學習——資料降維

機器學習-PCA降維與DBScan聚類分析實戰

機器學習筆記——降維（dimensionality reduction）

機器學習 -- > 檢測異常樣本方法總結

機器學習：降維演算法-主成分分析PCA演算法兩種角度的推導

機器學習筆記簿降維篇 LDA 01

機器學習實踐（五）—sklearn之特徵降維

機器學習四大資料降維方法詳解

淺析機器學習中的降維方法

機器學習特徵選擇方法

機器學習特徵工程總結

機器學習之多維縮放(MDS)降維

2018最新實用BAT機器學習演算法崗位系列面試總結(結構化資料特徵工程)

機器學習-->特徵降維方法總結

特徵抽取

特徵選擇

總結

相關推薦