機器學習 of python（PCA例項）

阿新 • • 發佈：2018-12-11

吉吉：

import numpy as np
import pandas as pd
df = pd.read_csv('iris.data')
df.head()

df.columns=['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid', 'class']
df.head()

# split data table into data X and class labels y

X = df.iloc[:,0:4].values
y = df.iloc[:,4].values

from matplotlib import pyplot as plt
import math

label_dict = {1: 'Iris-Setosa',
              2: 'Iris-Versicolor',
              3: 'Iris-Virgnica'}

feature_dict = {0: 'sepal length [cm]',
                1: 'sepal width [cm]',
                2: 'petal length [cm]',
                3: 'petal width [cm]'}


plt.figure(figsize=(8, 6))
for cnt in range(4):
    plt.subplot(2, 2, cnt+1)
    for lab in ('Iris-setosa', 'Iris-versicolor', 'Iris-virginica'):
        plt.hist(X[y==lab, cnt],
                     label=lab,
                     bins=10,
                     alpha=0.3,)
    plt.xlabel(feature_dict[cnt])
    plt.legend(loc='upper right', fancybox=True, fontsize=8)

plt.tight_layout()
plt.show()

from sklearn.preprocessing import StandardScaler
X_std = StandardScaler().fit_transform(X)
print (X_std)

mean_vec = np.mean(X_std, axis=0)
cov_mat = (X_std - mean_vec).T.dot((X_std - mean_vec)) / (X_std.shape[0]-1)
print('Covariance matrix \n%s' %cov_mat)
print('NumPy covariance matrix: \n%s' %np.cov(X_std.T))

cov_mat = np.cov(X_std.T)

eig_vals, eig_vecs = np.linalg.eig(cov_mat)

print('Eigenvectors \n%s' %eig_vecs)
print('\nEigenvalues \n%s' %eig_vals)

Eigenvectors 
[[ 0.52308496 -0.36956962 -0.72154279  0.26301409]
 [-0.25956935 -0.92681168  0.2411952  -0.12437342]
 [ 0.58184289 -0.01912775  0.13962963 -0.80099722]
 [ 0.56609604 -0.06381646  0.63380158  0.52321917]]

Eigenvalues 
[2.92442837 0.93215233 0.14946373 0.02098259]

# Make a list of (eigenvalue, eigenvector) tuples
eig_pairs = [(np.abs(eig_vals[i]), eig_vecs[:,i]) for i in range(len(eig_vals))]
print (eig_pairs)
print ('----------')
# Sort the (eigenvalue, eigenvector) tuples from high to low
eig_pairs.sort(key=lambda x: x[0], reverse=True)

# Visually confirm that the list is correctly sorted by decreasing eigenvalues
print('Eigenvalues in descending order:')
for i in eig_pairs:
    print(i[0])

[(2.9244283691111144, array([ 0.52308496, -0.25956935,  0.58184289,  0.56609604])), (0.9321523302535064, array([-0.36956962, -0.92681168, -0.01912775, -0.06381646])), (0.14946373489813314, array([-0.72154279,  0.2411952 ,  0.13962963,  0.63380158])), (0.020982592764270606, array([ 0.26301409, -0.12437342, -0.80099722,  0.52321917]))]
----------
Eigenvalues in descending order:
2.9244283691111144
0.9321523302535064
0.14946373489813314
0.020982592764270606

tot = sum(eig_vals)
var_exp = [(i / tot)*100 for i in sorted(eig_vals, reverse=True)]
print (var_exp)
cum_var_exp = np.cumsum(var_exp)
cum_var_exp

[72.62003332692034, 23.147406858644135, 3.7115155645845164, 0.5210442498510154]

array([ 72.62003333,  95.76744019,  99.47895575, 100.        ])

a = np.array([1,2,3,4])
print (a)
print ('-----------')
print (np.cumsum(a))

[1 2 3 4]
-----------
[ 1  3  6 10]

plt.figure(figsize=(6, 4))

plt.bar(range(4), var_exp, alpha=0.5, align='center',
            label='individual explained variance')
plt.step(range(4), cum_var_exp, where='mid',
             label='cumulative explained variance')
plt.ylabel('Explained variance ratio')
plt.xlabel('Principal components')
plt.legend(loc='best')
plt.tight_layout()
plt.show()

matrix_w = np.hstack((eig_pairs[0][1].reshape(4,1),
                      eig_pairs[1][1].reshape(4,1)))

print('Matrix W:\n', matrix_w)
Y = X_std.dot(matrix_w)
Y

plt.figure(figsize=(6, 4))
for lab, col in zip(('Iris-setosa', 'Iris-versicolor', 'Iris-virginica'),
                        ('blue', 'red', 'green')):
     plt.scatter(X[y==lab, 0],
                X[y==lab, 1],
                label=lab,
                c=col)
plt.xlabel('sepal_len')
plt.ylabel('sepal_wid')
plt.legend(loc='best')
plt.tight_layout()
plt.show()

plt.figure(figsize=(6, 4))
for lab, col in zip(('Iris-setosa', 'Iris-versicolor', 'Iris-virginica'),
                        ('blue', 'red', 'green')):
     plt.scatter(Y[y==lab, 0],
                Y[y==lab, 1],
                label=lab,
                c=col)
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
# plt.legend(loc='lower center')
plt.legend(loc='best')
plt.tight_layout()
plt.show()

機器學習 of python（PCA例項）

吉吉： import numpy as np import pandas as pd df = pd.read_csv('iris.data') df.head() df.columns=['sepal_len', 'sepal_wid', 'petal_len',

可能是史上最全的機器學習和Python（包括數學）速查表

最好 pytorch 資料 sub mat 出了 statistic 遇到 FQ 新手學習機器學習很難，就是收集資料也很費勁。所幸Robbie Allen從不同來源收集了目前最全的有關機器學習、Python和相關數學知識的速查表大全。強烈建議收藏！機器學習有很多方面

機器學習之python（十六）

這次為什麼還有教一下python呢？這裡的教學是針對於機器學習中使用到的python的一些功能。我希望大家在看完之前的教程之後再看這些文章。教學還是在程式碼塊中進行註解，希望大家慢慢看慢慢的去理會。今天來學習python中的list、你們也可以參考廖雪峰大神的pyth

機器學習/邏輯迴歸（logistic regression）/--附python程式碼

個人分類：機器學習本文為吳恩達《機器學習》課程的讀書筆記，並用python實現。前一篇講了線性迴歸，這一篇講邏輯迴歸，有了上一篇的基礎，這一篇的內容會顯得比較簡單。邏輯迴歸（logistic regression）雖然叫回歸，但他做的事實際上是分類。這裡我們討論二元分類，即只分兩類，y屬於{0,1}。

從零開始機器學習比賽經驗（bird分享）

競爭力 aca 新的 ast 成績 ats span boosting https 視頻地址：https://pan.baidu.com/s/1b25yNG 機器學習比賽入門條件 1.過的去的code能力：Leetcode平臺 leetcode平臺可以幫助我們提高基本的算法

機器學習實戰筆記（python3實現）01--概述

apriori 一個 python 系列 k-均值聚類思路機器學習實戰 st算法 apr 寫在前面：這一個多月都在學習python,從python3基礎、python爬蟲、python數據挖掘與數據分析都有接觸，最近看到一本機器學習的書（主要是學習相關算法）於是就打算

機器學習實戰三（Naive Bayes）

需要 blog bag puts list tps foo 實戰簡單的機器學習實戰三（Naive Bayes）前兩章的兩種分類算法，是確定的分類器，但是有時會產生一些錯誤的分類結果，這時可以要求分類器給出一個最優的猜測結果，估計概率。樸素貝葉斯就是其中一種。學過概率

機器學習實戰筆記（K近鄰）

最終而是類別頻率 n) 簡單因此當前要素 K近鄰算法（KNN） k近鄰算法 ??k近鄰(k-nearest neighbor,KNN)是一種基本的分類與回歸算法。於1968年由Cover和Hart提出。k近鄰的輸入是實例的特征向量，對應於特征空間的點；輸出為實

機器學習 ---誤差理論（Error Theory）

參考文獻 Learning Theory（Error Theory）學習筆記 https://blog.csdn.net/kinbosong/article/details/60874007 斯坦福大學機器學習——誤差理論（Error Theory） https://blog.cs

機器學習-線性迴歸（LMS Algorithm）

今天正式開始機器學習之路（看的斯坦福大學的視訊課以及講義），由於看的時候濛濛的，因此想要找個平臺儲存一下自己學習的成果，因此寫了此篇文章，作為機器學習的小白，文章可能有諸多不妥之處，不作為學術理論的深入研究範圍。因為我是小白，我是小白，我是小白。由於第一次用簡書寫，所以可能格式不太對，請見諒。

機器學習-核函式（核模型）

一.核函式它是針對線性可分情況進行分析，對於線性不可分的情況，通過使用非線性對映演算法將低維輸入空間線性不可分的樣本轉化為高維特徵空間使其線性可分，從而使得高維特徵空間採用線性演算法對樣本的非線性特徵進行線性分析成為可能。它基於結構風險最小化理論之上在特徵

機器學習-決策樹（decision tree）

機器學習中分類和預測演算法的評估：準確率速度強壯性（演算法中當有噪音和某些值缺失時，演算法能否依然很好）可規模性可解釋性（能否很好的解釋模型）一、什麼是決策樹？ 1、判定樹（決策樹）是一個類似於流程圖的樹結構，其中，每個內部節點表示在一個屬性上的

機器學習筆記 perceptron（感知機）在ex4Data資料集上的實現

慣例的ML課堂作業，第四個也是最後一個線性分類模型，感知機。感知機是一個非常簡單的線性分類模型，簡單來說就是一個神經元，其啟用函式是門限函式，有n個輸入和一個輸出，和神經元結構十分相似。感知機的損失函式是看作是分類錯的所有樣本的輸出值的和 hw的輸出就是

機器學習 of python(嶺迴歸和Lasso迴歸)

注：正則化是用來防止過擬合的方法。在最開始學習機器學習的課程時，只是覺得這個方法就像某種魔法一樣非常神奇的改變了模型的引數。但是一直也無法對其基本原理有一個透徹、直觀的理解。直到最近再次接觸到這個概念，經過一番苦思冥想後終於有了我自己的理解。 0. 正則化（Regu

機器學習實戰教程（十二）：線性迴歸提高篇之樂高玩具套件二手價預測

一、前言本篇文章講解線性迴歸的縮減方法，嶺迴歸以及逐步線性迴歸，同時熟悉sklearn的嶺迴歸使用方法，對樂高玩具套件的二手價格做出預測。二、嶺迴歸如果資料的特徵比樣本點還多應該怎麼辦？很顯然，此時我們不能再使用上文的方法進行計算了，因為矩陣X不是滿秩矩陣，非

機器學習-線性迴歸（LMS Algorithm）

今天正式開始機器學習之路（看的斯坦福大學的視訊課以及講義），由於看的時候濛濛的，因此想要找個平臺儲存一下自己學習的成果，因此寫了此篇文章，作為機器學習的小白，文章可能有諸多不妥之處，不作為學術理論的深入研究範圍。因為我是小白，我是小白，我是小白。由於第一次用簡書寫，所以可

【機器學習】LR（線性迴歸）—— python3 實現方案

import numpy as np class LR: def calcost(self, X, y, theta, lamb=1): ''' 平方誤差代價函式，使用L2正則化 :param X: 特徵集 m*n，m

《機器學習實戰》（第二章）中函式詳細解析

本文是針對《機器學習實戰》內函式的解析。並以頁數呈現。 P19：numpy.tile(A,rep)函式當rep為數字時，生成一個一維重複rep次的list。當rep為元組（m,n）時，生成一個m行並且每行重複n次的矩陣。 import numpy as np a1

機器學習概念梳理（無公式）

1.機器學習是幹什麼的（1）分類如：輸入大量的動物圖片進行訓練後，使機器能夠區分哪隻是狗，哪隻是貓。（2）標註標註是分類問題的推廣。和分類問題不同的地方在於，其輸出結果不是簡單的一個類別（如這是一條狗），而是一個標註序列。如：輸入一個英文句子，輸出該句子中每個單詞的詞性。（3

機器學習實戰——筆記（第一章）

機器學習基礎目錄機器學習的簡單概述機器學習的主要任務演算法選擇與開發步驟 Python語言的優勢一、機器學習的簡單概述機器學習應用領域十分廣泛，如人臉識別、推薦系統、手寫數字辨識及垃圾郵件過濾等。那何謂“機器學習”？簡單的說“

機器學習 of python（PCA例項）

相關推薦