import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
 
 
# load data
df_wine = pd.read_csv('D:\\PyCharm_Project\\maching_learning\\wine_data\\wine.data', header=None)  # 
 本地載入，路徑為本地資料集存放位置
# df_wine=pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data',header=None)#伺服器載入

下一步將資料按7:3劃分為training-data和testing-data，並進行標準化處理。

# split the data，train：test=7:3
x, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, stratify=y, random_state=0)
 
# standardize the feature 標準化
sc = StandardScaler()
x_train_std = sc.fit_transform(x_train)
x_test_std = sc.fit_transform(x_test)

這個過程可以自行打印出資料進行觀察研究。

接下來構造協方差矩陣。維協方差對稱矩陣，實際操作就是計算不同特徵列之間的協方差。公式如下：

公式中，jk就是在矩陣中的行列下標，i表示第i行資料，分別為特徵列 j，k的均值。最後得到的協方差矩陣是13*13，這裡以3*3為例，如下：

下面使用numpy實現計算協方差並提取特徵值和特徵向量。

# 構造協方差矩陣，得到特徵向量和特徵值
cov_matrix = np.cov(x_train_std.T)
eigen_val, eigen_vec = np.linalg.eig(cov_matrix)
# print("values\n ", eigen_val, "\nvector\n ", eigen_vec)# 可以列印看看

3、主成分方差視覺化

首先，計算主成分方差比率，每個特徵值方差與特徵值方差總和之比：

程式碼實現：

# 解釋方差比
tot = sum(eigen_val)  # 總特徵值和
var_exp = [(i / tot) for i in sorted(eigen_val, reverse=True)]  # 計算解釋方差比，降序
# print(var_exp)
cum_var_exp = np.cumsum(var_exp)  # 累加方差比率
plt.rcParams['font.sans-serif'] = ['SimHei']  # 顯示中文
plt.bar(range(1, 14), var_exp, alpha=0.5, align='center', label='獨立解釋方差')  # 柱狀 Individual_explained_variance
plt.step(range(1, 14), cum_var_exp, where='mid', label='累加解釋方差')  # Cumulative_explained_variance
plt.ylabel("解釋方差率")
plt.xlabel("主成分索引")
plt.legend(loc='right')
plt.show()

視覺化結果看出，第一二主成分佔據大部分方差，接近60%。

4、特徵變換

這一步需要構造之前講到的投影矩陣，從高維d變換到低維空間k。

先將提取的特徵對進行降序排列：

# 特徵變換
eigen_pairs = [(np.abs(eigen_val[i]), eigen_vec[:, i]) for i in range(len(eigen_val))]
eigen_pairs.sort(key=lambda k: k[0], reverse=True)  # (特徵值，特徵向量)降序排列

從上步驟視覺化，選取第一二主成分作為最大特徵向量進行構造投影矩陣。

w = np.hstack((eigen_pairs[0][1][:, np.newaxis], eigen_pairs[1][1][:, np.newaxis]))  # 降維投影矩陣W

13*2維矩陣如下：

這時，將原資料矩陣與投影矩陣相乘，轉化為只有兩個最大的特徵主成分。

x_train_pca = x_train_std.dot(w)

5、資料分類結果

使用matplotlib進行畫圖視覺化，可見得，資料分佈更多在x軸方向（第一主成分），這與之前方差佔比解釋一致，這時可以很直觀區別3種不同類別。

程式碼實現：

color = ['r', 'g', 'b']
marker = ['s', 'x', 'o']
for l, c, m in zip(np.unique(y_train), color, marker):
    plt.scatter(x_train_pca[y_train == l, 0],
                x_train_pca[y_train == l, 1],
                c=c, label=l, marker=m)
plt.title('Result')
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.legend(loc='lower left')
plt.show()

本案例介紹PCA單個步驟和實現過程，一點很重要，PCA是無監督學習技術，它的分類沒有使用到樣本標籤，上面之所以看出3類不同標籤，是後來畫圖時候自行新增的類別區分標籤。

6、完整程式碼

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
 
 
def main():
    # load data
    df_wine = pd.read_csv('D:\\PyCharm_Project\\maching_learning\\wine_data\\wine.data', header=None)  # 本地載入
    # df_wine=pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data',header=None)#伺服器載入
 
    # split the data，train：test=7:3
    x, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, stratify=y, random_state=0)
 
    # standardize the feature 標準化單位方差
    sc = StandardScaler()
    x_train_std = sc.fit_transform(x_train)
    x_test_std = sc.fit_transform(x_test)
    # print(x_train_std)
 
    # 構造協方差矩陣，得到特徵向量和特徵值
    cov_matrix = np.cov(x_train_std.T)
    eigen_val, eigen_vec = np.linalg.eig(cov_matrix)
    # print("values\n ", eigen_val, "\nvector\n ", eigen_vec)
 
    # 解釋方差比
    tot = sum(eigen_val)  # 總特徵值和
    var_exp = [(i / tot) for i in sorted(eigen_val, reverse=True)]  # 計算解釋方差比，降序
    # print(var_exp)
    # cum_var_exp = np.cumsum(var_exp)  # 累加方差比率
    # plt.rcParams['font.sans-serif'] = ['SimHei']  # 顯示中文
    # plt.bar(range(1, 14), var_exp, alpha=0.5, align='center', label='獨立解釋方差')  # 柱狀 Individual_explained_variance
    # plt.step(range(1, 14), cum_var_exp, where='mid', label='累加解釋方差')  # Cumulative_explained_variance
    # plt.ylabel("解釋方差率")
    # plt.xlabel("主成分索引")
    # plt.legend(loc='right')
    # plt.show()
 
    # 特徵變換
    eigen_pairs = [(np.abs(eigen_val[i]), eigen_vec[:, i]) for i in range(len(eigen_val))]
    eigen_pairs.sort(key=lambda k: k[0], reverse=True)  # (特徵值，特徵向量)降序排列
    # print(eigen_pairs)
    w = np.hstack((eigen_pairs[0][1][:, np.newaxis], eigen_pairs[1][1][:, np.newaxis]))  # 降維投影矩陣W
    # print(w)
    x_train_pca = x_train_std.dot(w)
    # print(x_train_pca)
    color = ['r', 'g', 'b']
    marker = ['s', 'x', 'o']
    for l, c, m in zip(np.unique(y_train), color, marker):
        plt.scatter(x_train_pca[y_train == l, 0],
                    x_train_pca[y_train == l, 1],
                    c=c, label=l, marker=m)
    plt.title('Result')
    plt.xlabel('PC1')
    plt.ylabel('PC2')
    plt.legend(loc='lower left')
    plt.show()
 
 
if __name__ == '__main__':
    main()