機器學習-降低維度演算法

阿新 • • 發佈：2021-01-19

像聚類演算法一樣，降低維度演算法試圖分析資料的內在結構，不過降低維度演算法是以非監督學習的方式試圖利用較少的資訊來歸納或者解釋資料。這類演算法可以用於高維資料的視覺化或者用來簡化資料以便監督式學習使用。

常見的演算法包括：主成份分析，偏最小二乘迴歸， Sammon對映，多維尺度, 投影追蹤等。

from __future__ import print_function
from sklearn import datasets
import matplotlib.pyplot as plt
import matplotlib.cm as cmx
import matplotlib.colors  
as colors
import numpy as np




def shuffle_data(X, y, seed=None):
    if seed:
        np.random.seed(seed)

    idx = np.arange(X.shape[0])
    np.random.shuffle(idx)

    return X[idx], y[idx]



# 正規化資料集 X
def normalize(X, axis=-1, p=2):
    lp_norm = np.atleast_1d(np.linalg.norm(X, p, axis))
    lp_norm[lp_norm  
== 0] = 1
    return X / np.expand_dims(lp_norm, axis)


# 標準化資料集 X
def standardize(X):
    X_std = np.zeros(X.shape)
    mean = X.mean(axis=0)
    std = X.std(axis=0)

    # 做除法運算時請永遠記住分母不能等於0的情形
    # X_std = (X - X.mean(axis=0)) / X.std(axis=0)
    for col in range(np.shape(X)[1]):
        if std[col]:
            X_std[:, col]  
= (X_std[:, col] - mean[col]) / std[col]

    return X_std


# 劃分資料集為訓練集和測試集
def train_test_split(X, y, test_size=0.2, shuffle=True, seed=None):
    if shuffle:
        X, y = shuffle_data(X, y, seed)

    n_train_samples = int(X.shape[0] * (1-test_size))
    x_train, x_test = X[:n_train_samples], X[n_train_samples:]
    y_train, y_test = y[:n_train_samples], y[n_train_samples:]

    return x_train, x_test, y_train, y_test



# 計算矩陣X的協方差矩陣
def calculate_covariance_matrix(X, Y=np.empty((0,0))):
    if not Y.any():
        Y = X
    n_samples = np.shape(X)[0]
    covariance_matrix = (1 / (n_samples-1)) * (X - X.mean(axis=0)).T.dot(Y - Y.mean(axis=0))

    return np.array(covariance_matrix, dtype=float)


# 計算資料集X每列的方差
def calculate_variance(X):
    n_samples = np.shape(X)[0]
    variance = (1 / n_samples) * np.diag((X - X.mean(axis=0)).T.dot(X - X.mean(axis=0)))
    return variance


# 計算資料集X每列的標準差
def calculate_std_dev(X):
    std_dev = np.sqrt(calculate_variance(X))
    return std_dev


# 計算相關係數矩陣
def calculate_correlation_matrix(X, Y=np.empty([0])):
    # 先計算協方差矩陣
    covariance_matrix = calculate_covariance_matrix(X, Y)
    # 計算X, Y的標準差
    std_dev_X = np.expand_dims(calculate_std_dev(X), 1)
    std_dev_y = np.expand_dims(calculate_std_dev(Y), 1)
    correlation_matrix = np.divide(covariance_matrix, std_dev_X.dot(std_dev_y.T))

    return np.array(correlation_matrix, dtype=float)



class PCA():
    """
    主成份分析演算法PCA，非監督學習演算法.
    """
    def __init__(self):
        self.eigen_values = None
        self.eigen_vectors = None
        self.k = 2

    def transform(self, X):
        """
        將原始資料集X通過PCA進行降維
        """
        covariance = calculate_covariance_matrix(X)

        # 求解特徵值和特徵向量
        self.eigen_values, self.eigen_vectors = np.linalg.eig(covariance)

        # 將特徵值從大到小進行排序，注意特徵向量是按列排的，即self.eigen_vectors第k列是self.eigen_values中第k個特徵值對應的特徵向量
        idx = self.eigen_values.argsort()[::-1]
        eigenvalues = self.eigen_values[idx][:self.k]
        eigenvectors = self.eigen_vectors[:, idx][:, :self.k]

        # 將原始資料集X對映到低維空間
        X_transformed = X.dot(eigenvectors)

        return X_transformed


def main():
    # Load the dataset
    data = datasets.load_iris()
    X = data.data
    y = data.target

    # 將資料集X對映到低維空間
    X_trans = PCA().transform(X)

    x1 = X_trans[:, 0]
    x2 = X_trans[:, 1]

    cmap = plt.get_cmap('viridis')
    colors = [cmap(i) for i in np.linspace(0, 1, len(np.unique(y)))]

    class_distr = []
    # Plot the different class distributions
    for i, l in enumerate(np.unique(y)):
        _x1 = x1[y == l]
        _x2 = x2[y == l]
        _y = y[y == l]
        class_distr.append(plt.scatter(_x1, _x2, color=colors[i]))

    # Add a legend
    plt.legend(class_distr, y, loc=1)

    # Axis labels
    plt.xlabel('Principal Component 1')
    plt.ylabel('Principal Component 2')
    plt.show()


if __name__ == "__main__":
    main()

機器學習-降低維度演算法

像聚類演算法一樣，降低維度演算法試圖分析資料的內在結構，不過降低維度演算法是以非監督學習的方式試圖利用較少的資訊來歸納或者解釋資料。這類演算法可以用於高維資料的視覺化或者用來簡化資料以便監督式學習使用

2-機器學習-KNN近鄰演算法分類模型、交叉驗證

KNN分類模型分類：將一個未知歸類的樣本歸屬到某一個已知的類群中預測：可以根據資料的規律計算出一個未知的資料

百面機器學習03-經典演算法

01 支援向量機支援向量機（Support Vector Machine, SVM）是眾多監督學習萬法中十分出色的一種，幾乎所有講述經典機器學習萬窪的教材都會介紹。關於 SVM，流傳著一個關於天使與魔鬼的故事。

【機器學習】整合演算法——Boosting中的AdaBoost演算法原理及sklearn應用

（寫在前面：整合演算法中基評估器可以是分類模型也可以是迴歸模型，因為個人習慣稱基評估器為弱分類器，全文的弱分類器其實是指基評估器，而寫基評估器就是基評估器，寫到後面才發現這點不太嚴謹，後面逐步

[機器學習]協同過濾演算法的原理和基於Spark 例項

技術標籤：sparkspark機器學習協同過濾目錄協同過濾協同過濾的型別協同過濾的評價方法

機器學習之matlab演算法SVM用150天資料預測上證指數的漲跌

技術標籤：matlab機器學習 Matlab基於SVM的上證指數漲跌預測 #資料的提取首先提取150天內上證指數的資料繪製成excel表格，並捨棄掉部分資料，最終保留開盤價作為首列，餘列分別為收盤價，最高價，最低價，成

機器學習之常用演算法

1、按照學習方式劃分1.1 監督學習：輸入資料稱為“訓練資料”，每組訓練資料有一個明確的標識或結果。在建立模型的時候，監督學習建立一個學習過程，將預測結果與“訓練資料”的實際結果進行比較，不斷調整預測模型

機器學習之常見演算法描述

1、線性迴歸演算法1.1演算法概述　　迴歸就是用一條曲線對資料點進行擬合，該曲線成為最佳擬合曲線，這個擬合過程稱為迴歸。當該曲線為一條直線時，就是線性迴歸。　　線性迴歸一般用來做連續值的預測，預測的結果是

圖解機器學習 | 邏輯迴歸演算法詳解

圖解機器學習 | 聚類演算法詳解

圖解機器學習 | 降維演算法詳解

python機器學習——決策樹演算法

背景與原理：決策樹演算法是在各種已知情況發生概率的基礎上通過構成決策樹來求某一事件發生概率的演算法，由於這個過程畫成圖解之後很像一棵樹形結構，因此我們把這個演算法稱為決策樹。

python機器學習——隨機森林演算法

背景與原理：首先我們需要知道整合學習的概念，所謂整合學習，就是使用一系列學習器進行學習，並且通過某種規則把這些學習器的學習結果整合起來從而獲得比單個學習器學習效果更好的機器學習方法。這樣的方法可以用於

【機器學習】機器學習之組合演算法總結

組合模型下面簡單的介紹下Bootstraping, Bagging, Boosting, AdaBoost, RandomForest 和Gradient boosting這些組合型演算法.

【機器學習】分類演算法評價

一、引言分類演算法有很多，不同分類演算法又用很多不同的變種。不同的分類演算法有不同的特定，在不同的資料集上表現的效果也不同，我們需要根據特定的任務進行演算法的選擇，如何選擇分類，如何評價一個分類演算法

機器學習線性分類演算法：感知器原理

感知器PLA是一種最簡單，最基本的線性分類演算法（二分類）。其前提是資料本身是線性可分的。

機器學習筆記—KNN演算法

目錄[-] 前言分類（Classification）是資料探勘領域中的一種重要技術，它從一組已分類的訓練樣本中發現分類模型，將這個分類模型應用到待分類的樣本進行預測。

人工智慧機器學習常用演算法總結及各個常用演算法精確率對比

本文講解了機器學習常用演算法總結和各個常用分類演算法精確率對比。收集了現在比較熱門的TensorFlow、Sklearn，借鑑了Github和一些國內外的文章。

機器學習：支援向量機識別手寫英文字母 SMO演算法實現二元分類器

本文只構建一個能夠識別一種英文符號的SVM，在此選擇了C字元。一、SVM構建 import numpy as np

機器學習實戰---樸素貝葉斯演算法

一：準備資料（一）載入原始資料 import numpy as np def loadDataSet(): postingList=[[\'my\', \'dog\', \'has\', \'flea\', \'problems\', \'help\', \'please\'],#每一行詞表，代表一個文件

機器學習-降低維度演算法

相關推薦