機器學習 | 吳恩達機器學習第八週程式設計作業(Python版）

阿新 • • 發佈：2018-11-20

實驗指導書下載密碼:higl

本篇部落格主要講解，吳恩達機器學習第八週的程式設計作業，主要包含KMeans實驗和PCA實驗兩部分。原始實驗使用Matlab實現，本篇部落格提供Python版本。

1.實驗包含的檔案

檔名稱	含義
ex7.py	K-means實驗主程式
ex7_pca.py	PCA實驗主程式
ex7data1.mat	PCA實驗資料集
ex7data2.mat	K-means實驗資料集
ex7faces.mat	人臉資料集
bird_small.png	示例圖片
displayData.py	視覺化資料
runkMeans.py	執行K-means演算法
pca.py	執行PCA
projectData.py	將原始資料對映到低維空間
recoverData.py	將壓縮資料恢復到原始資料
findClosestCentroids.py	找到最近的簇
computeCentroids.py	更新聚類中心
kMeansInitCentroids.py	初始化k-means的初始聚類中心

完成紅色部分程式的關鍵程式碼。

2.KMeans實驗

開啟KMeans實驗主程式ex7.py

'''第1部分 為每個樣本點找到離他最近的聚類中心'''

print('Finding closest centroids.')

data = scio.loadmat('ex7data2.mat') #載入矩陣格式的資料
X = data['X']  #提取輸入特徵矩陣


k = 3  # 隨機初始化3個聚類中心
initial_centroids = np.array([[3, 3], [6, 2], [8, 5]])

#找到離每個樣本最近的初始聚類中心序號
idx = fc.find_closest_centroids(X, initial_centroids)

print('Closest centroids for the first 3 examples: ')
print('{}'.format(idx[0:3]))
print('(the closest centroids should be 0, 2, 1 respectively)')

編寫findClosestCentroids.py 簇分配

def find_closest_centroids(X, centroids):
    
    K = centroids.shape[0]  #聚類中心數量

    m = X.shape[0]  #樣本數

  
    idx = np.zeros(m) #儲存m個樣本對應的最近的聚類中心序號

    for i in range(m):
        a=(X[i]-centroids).dot((X[i]-centroids).T)  #得到一個方陣  對角線上的元素為該樣本點到每個聚類中心的距離
        idx[i]=np.argsort(a.diagonal())[0]  #取出對角線元素 對其索引進行排序  返回離該樣本最近的聚類中心的序號

    return idx

驗證正確性：

更新聚類中心


'''第2部分 更新聚類中心'''

print('Computing centroids means.')

centroids = cc.compute_centroids(X, idx, k) #在簇分配結束後 對每個簇的樣本點重新計算聚類中心

print('Centroids computed after initial finding of closest centroids: \n{}'.format(centroids))
print('the centroids should be')
print('[[ 2.428301 3.157924 ]')
print(' [ 5.813503 2.633656 ]')
print(' [ 7.119387 3.616684 ]]')

編寫computeCentroids.py

def compute_centroids(X, idx, K):
   
    (m, n) = X.shape #m為樣本數 n為每個樣本的特徵數

    centroids = np.zeros((K, n)) #儲存新的聚類中心的位置 

    for i in range(K):
        centroids[i]=np.mean(X[idx==i],axis=0)   #對每個簇 計算新的聚類中心 axis=0對每一列求均值

    return centroids

驗證正確性：

執行k-means演算法

'''第3部分 執行k-means聚類演算法'''
print('Running K-Means Clustering on example dataset.')

#載入資料集
data = scio.loadmat('ex7data2.mat') 
X = data['X']


K = 3   #聚類中心數量
max_iters = 10  #設定外迴圈迭代次數

initial_centroids = np.array([[3, 3], [6, 2], [8, 5]])  #初始化聚類中心

centroids, idx = km.run_kmeans(X, initial_centroids, max_iters, True) #執行k-means演算法 返回最終聚類中心位置即每個樣本點所屬的聚類中心
#並把中間過程以及最終聚類效果視覺化
print('K-Means Done.')

檢視runKMeans.py

def run_kmeans(X, initial_centroids, max_iters, plot): #plot設定是否進行視覺化 
    if plot:
        plt.figure()

    (m, n) = X.shape #m樣本數  n樣本特徵數
    K = initial_centroids.shape[0]  #聚類中心數量
    centroids = initial_centroids
    previous_centroids = centroids
    idx = np.zeros(m)  #存放每個樣本所屬的聚類中心序號

    # 執行k-means
    for i in range(max_iters):  #外迴圈
        print('K-Means iteration {}/{}'.format((i + 1), max_iters))  

        idx = fc.find_closest_centroids(X, centroids) #第一個內迴圈 為每個樣本找到最近的聚類中心
        
        if plot:
            plot_progress(X, centroids, previous_centroids, idx, K, i) #畫出此時簇分配的狀態
            previous_centroids = centroids
            input('Press ENTER to continue')

        centroids = cc.compute_centroids(X, idx, K) #第2個內迴圈  更新聚類中心

    return centroids, idx  #返回最終聚類中心的位置  和每個樣本所屬的聚類中心序號


def plot_progress(X, centroids, previous, idx, K, i):
    plt.scatter(X[:, 0], X[:, 1], c=idx, s=15)   #不同聚類中心用不同的顏色表示 

    plt.scatter(centroids[:, 0], centroids[:, 1], marker='x', c='black', s=25) #標出聚類中心

    for j in range(centroids.shape[0]):  #為更新後的聚類中心和之前的聚類中心連線
        draw_line(centroids[j], previous[j])

    plt.title('Iteration number {}'.format(i + 1))


def draw_line(p1, p2):
    plt.plot(np.array([p1[0], p2[0]]), np.array([p1[1], p2[1]]), c='black', linewidth=1)

最終的聚類效果和聚類中心的移動過程

使用k-means壓縮圖片

'''第4部分 執行k-means聚類演算法 壓縮圖片'''
print('Running K-Means clustering on pixels from an image')

#載入圖片
image = io.imread('bird_small.png')
image = img_as_float(image)

# 圖片大小
img_shape = image.shape


X = image.reshape(img_shape[0] * img_shape[1], 3) #把圖片轉換成3個列向量構成的矩陣  每個列向量代表每個顏色通道的所有畫素點 

#可以設定不同的引數 觀察效果
K = 16 #聚類中心數量
max_iters = 10 #外迴圈迭代次數

#初始化聚類中心位置很重要  初始化不同  最終聚類效果也會不同
initial_centroids = kmic.kmeans_init_centroids(X, K) 

# 執行k-means
centroids, idx = km.run_kmeans(X, initial_centroids, max_iters, False) #False不進行視覺化

print('K-Means Done.')

input('Program paused. Press ENTER to continue')


print('Applying K-Means to compress an image.')

# 得到最終聚類結束後 每個樣本所屬的聚類中心序號
idx = fc.find_closest_centroids(X, centroids)

#用idx做索引
idx=idx.astype(int) #將數值型別轉換為整型
idx=idx.tolist()  #將陣列轉換為列表  

X_recovered = centroids[idx]  #將每個樣本點位置轉換為它所屬簇的聚類中心的位置  實現壓縮

X_recovered = np.reshape(X_recovered, (img_shape[0], img_shape[1], 3)) #把影象轉換為之前的維度

io.imsave('compress.png',X_recovered) #儲存壓縮後的圖片檔案
plt.subplot(2, 1, 1)  #視覺化原始圖片
plt.imshow(image)
plt.title('Original')

plt.subplot(2, 1, 2)  #壓縮後的圖片
plt.imshow(X_recovered)
plt.title('Compressed, with {} colors'.format(K))

input('ex7 Finished. Press ENTER to exit')

編寫kMeansInitCentroids.py

def kmeans_init_centroids(X, K):
    #隨機初始化聚類中心
    centroids = np.zeros((K, X.shape[1]))  

    #初始化聚類中心為資料集中的樣本點
    centroids=X[np.random.randint(0,X.shape[0],K)]

    return centroids

圖片壓縮效果

3.K-means實驗完整程式碼

下載連結下載密碼:qhbm

4.PCA實驗

開啟PCA實驗主程式ex7_pca.py

'''第1部分 載入資料集 並可視化'''
#小資料集方便視覺化
print('Visualizing example dataset for PCA.')

data = scio.loadmat('ex7data1.mat')
X = data['X'] #兩個特徵 

# 視覺化
plt.figure()
plt.scatter(X[:, 0], X[:, 1], facecolors='none', edgecolors='b', s=20)
plt.axis('equal')
plt.axis([0.5, 6.5, 2, 8])

視覺化效果

實現PCA演算法

'''第2部分 實現PCA 進行資料壓縮'''

print('Running PCA on example dataset.')

# 在PCA之前 要對特徵進行縮放
X_norm, mu, sigma = fn.feature_normalize(X)

# 執行PCA 返回U矩陣  和S矩陣
U, S = pca.pca(X_norm)

#對比兩個不同的特徵向量 U[:,0]更好 投影誤差最小  U中的各個特徵向量（列）都是正交的  2D->1D 取前1個特徵向量 作為Ureduce
rk.draw_line(mu, mu + 1.5 * S[0] * U[:, 0]) 
rk.draw_line(mu, mu + 1.5 * S[1] * U[:, 1])

print('Top eigenvector: \nU[:, 0] = {}'.format(U[:, 0])) #利用PCA得到的特徵向量矩陣Ureduce（降維後子空間的基）
print('You should expect to see [-0.707107 -0.707107]')

檢視特徵縮放程式featureNormalize.py

def feature_normalize(X):
    mu = np.mean(X, 0)  #對特徵矩陣每一列求均值
    sigma = np.std(X, 0, ddof=1)  #特徵矩陣每一列求標準差
    X_norm = (X - mu) / sigma  #特徵矩陣每一列的元素減去該列均值  除以該列標準差  得到特徵縮放後的矩陣

    return X_norm, mu, sigma

編寫pca.py

def pca(X):
   
    (m, n) = X.shape  #m 樣本數  n特徵數

    U = np.zeros((n,n)) #U 為n*n的矩陣
    S = np.zeros(n)  #S也是n*n的對角矩陣  只不過svd返回的是其對角線的非0元素 
    #計算協方差矩陣
    Sigma=(1/m)*(X.T.dot(X))
    #對協方差矩陣進行奇異值分解
    U,S,V=scipy.linalg.svd(Sigma)
   
    return U, S

視覺化降維後的特徵向量（子空間的基向量）

驗證程式正確性：

得到降維後的樣本點並進行壓縮重放

'''第3部分 得到降維後的樣本點 再進行壓縮重放'''
print('Dimension reductino on example dataset.')

# 視覺化特徵縮放後的資料集
plt.figure()
plt.scatter(X_norm[:, 0], X_norm[:, 1], facecolors='none', edgecolors='b', s=20)
plt.axis('equal')
plt.axis([-4, 3, -4, 3])

# 將2維資料對映到1維
K = 1
Z = pd.project_data(X_norm, U, K)
print('Projection of the first example: {}'.format(Z[0]))
print('(this value should be about 1.481274)')

X_rec = rd.recover_data(Z, U, K) #將降維後的1維資料 轉換為2維（在特徵向量上的投影點）

print('Approximation of the first example: {}'.format(X_rec[0]))
print('(this value should be about [-1.047419 -1.047419])')

# 畫出特徵縮放後的樣本在特徵向量上的投影點 並在2者之間連線
plt.scatter(X_rec[:, 0], X_rec[:, 1], facecolors='none', edgecolors='r', s=20)
for i in range(X_norm.shape[0]):
    rk.draw_line(X_norm[i], X_rec[i])

編寫降維程式projectData.py

def project_data(X, U, K): #得到降維後的樣本點

    Z = np.zeros((X.shape[0], K)) #降維後的特徵矩陣 Z：m*K X：m*n

    Z=X.dot(U[:,:K])

    return Z

編寫壓縮重放程式recoverData.py

def recover_data(Z, U, K):  #進行壓縮重放
    
    X_rec = np.zeros((Z.shape[0], U.shape[0])) #原始樣本在特徵向量上的投影點 X_rec:m*n Z:m*K  U:n*n

    X_rec=Z.dot(U[:,:K].T)

    return X_rec

視覺化效果

驗證程式正確性：

載入並可視化人臉資料

'''第4部分 載入並可視化人臉資料集'''

print('Loading face dataset.')

data = scio.loadmat('ex7faces.mat')
X = data['X'] #得到輸入特徵矩陣  
print(X.shape[1]) #特徵為1024維
disp.display_data(X[0:100]) #視覺化前100個人臉

視覺化效果

視覺化人臉資料的特徵向量

'''第5部分 視覺化人臉資料的特徵向量'''
print('Running PCA on face dataset.\n(this might take a minute or two ...)')

X_norm, mu, sigma = fn.feature_normalize(X) #對輸入特徵矩陣進行特徵縮放

#執行PCA演算法
U, S = pca.pca(X_norm)

#視覺化前36個特徵向量（每個向量1024維）
disp.display_data(U[:, 0:36].T)

視覺化效果

對人臉資料進行降維（1024->100)

'''第6部分 對人臉資料進行降維 從1024維降到100維'''
print('Dimension reduction for face dataset.')

K = 100
Z = pd.project_data(X_norm, U, K)  #得到降維後的特徵矩陣（樣本點）

print('The projected data Z has a shape of: {}'.format(Z.shape)) #m*100

視覺化降維後，再壓縮重放後的人臉資料與原資料比較

'''第7部分 視覺化降維後,再壓縮重放的人臉資料和原始資料比較'''
print('Visualizing the projected (reduced dimension) faces.')

K = 100
X_rec = rd.recover_data(Z, U, K) #壓縮重放

#視覺化原始資料
disp.display_data(X_norm[0:100])
plt.title('Original faces')
plt.axis('equal')

#壓縮到100維  再壓縮重放後的資料
disp.display_data(X_rec[0:100])
plt.title('Recovered faces')
plt.axis('equal')

PCA要求投影誤差最小，所以2者應該是差不多的：

利用PCA視覺化高維資料

PCA可以把高維資料降至低維再進行視覺化：

'''第8部分 利用PCA視覺化高維資料'''
image = io.imread('bird_small.png') #讀取圖片
image = img_as_float(image)

img_shape = image.shape

X = image.reshape((img_shape[0] * img_shape[1], 3))  #將圖片格式轉換為包含3列（3個顏色通道）的矩陣
K = 16   #聚類中心數量
max_iters = 10  #外迴圈迭代次數
initial_centroids = kmic.kmeans_init_centroids(X, K)  #初始化K個聚類中心
centroids, idx = km.run_kmeans(X, initial_centroids, max_iters, False) #執行k-means，得到最終的聚類中心和每個樣本點所屬的聚類中心序號


selected = np.random.randint(X.shape[0], size=1000) #隨機選擇1000（可以更改）個樣本點 每個樣本點3維

#視覺化3維資料  不同顏色表示每個樣本點的所屬的簇
cm = plt.cm.get_cmap('RdYlBu')
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.scatter(X[selected, 0], X[selected, 1], X[selected, 2], c=idx[selected],cmap=cm, s=15, vmin=0, vmax=K)
plt.title('Pixel dataset plotted in 3D. Color shows centroid memberships')

input('Program paused. Press ENTER to continue')

#利用PCA把3維資料 降至2維 進行視覺化

X_norm, mu, sigma = fn.feature_normalize(X)  #對特徵矩陣X 進行特徵縮放

#呼叫pca 3D->2D
U, S = pca.pca(X_norm)
Z = pd.project_data(X_norm, U, 2)  #得到降維後的特徵矩陣

# 視覺化2維資料  不同顏色表示每個樣本點的所屬的簇
plt.figure()
plt.scatter(Z[selected, 0], Z[selected, 1], c=idx[selected].astype(np.float64), cmap=cm,s=15)
plt.title('Pixel dataset plotted in 2D, using PCA for dimensionality reduction')

視覺化效果

5.PCA實驗完整程式碼

下載連結下載密碼:yazu

機器學習 | 吳恩達機器學習第八週程式設計作業(Python版）

實驗指導書下載密碼:higl 本篇部落格主要講解，吳恩達機器學習第八週的程式設計作業，主要包含KMeans實驗和PCA實驗兩部分。原始實驗使用Matlab實現，本篇部落格提供Python版本。目錄 1.實驗包含的檔案 2.KMeans實驗 3.K-me

機器學習 | 吳恩達機器學習第六週程式設計作業(Python版）

實驗指導書下載密碼:4t4y 本篇部落格主要講解，吳恩達機器學習第六週的程式設計作業，作業內容主要是實現一個正則化的線性迴歸演算法，涉及本週講的模型選擇問題，繪製學習曲線判斷高偏差/高方差問題。原始實驗使用Matlab實現，本篇部落格提供Python版本。目錄 1.實驗包

深度學習-吳恩達第一課第三週課程作業

第二週的課程作業是利用邏輯迴歸來訓練一個分類器來辨別一張圖片是否為貓，這周老師講了單隱層的神經網路，所以先看看利用這個模型能否在上次作業的基礎上對訓練準確度作出改善訓練一個神經網路神經網路分為幾層，隱藏層中包含幾個神經元，使用的啟用函式初始化引數 W（i）和

機器學習 | 吳恩達機器學習第三週程式設計作業(Python版)

實驗指導書下載密碼:fja4 本篇部落格主要講解，吳恩達機器學習第三週的程式設計作業，作業內容主要是利用邏輯迴歸演算法(正則化)進行二分類。實驗的原始版本是用Matlab實現的，本篇部落格主要用Python來實現。目錄 1.實驗包含的檔案 2.使用邏

機器學習 | 吳恩達機器學習第七週程式設計作業(Python版)

實驗指導書下載密碼:a15g 本篇部落格主要講解，吳恩達機器學習第七週的程式設計作業，包含兩個實驗，一是線性svm和帶有高斯核函式的svm的基本使用；二是利用svm進行垃圾郵件分類。原始實驗使用Matlab實現，本篇部落格提供Python版本。目錄 1.

機器學習 | 吳恩達機器學習第二週程式設計作業(Python版）

實驗指導書下載密碼:hso0 本篇部落格主要講解，吳恩達機器學習第二週的程式設計作業，作業內容主要是實現單元/多元線性迴歸演算法。實驗的原始版本是用Matlab實現的，本篇部落格主要用Python來實現。目錄 1.實驗包含的檔案 2.單元

機器學習 | 吳恩達機器學習第四周程式設計作業(Python版本)

實驗指導書下載密碼:u8dl 本篇部落格主要講解，吳恩達機器學習第四周的程式設計作業，作業內容主要是對手寫數字進行識別，是一個十分類問題，要求使用兩種不同的方法實現：一是用之前講過的邏輯迴歸實現手寫數字識別，二是用本週講的神經網路實現手寫數字

機器學習 | 吳恩達機器學習第四周學習筆記

課程視訊連結第四周課件下載密碼:kx0q 上一篇部落格主要介紹了第三週的課程的內容，主要講解分類問題，引入了邏輯迴歸模型來解決分類問題，並詳細的介紹了邏輯迴歸模型的細節，包括假設函式，代價函式，優化求解方法包括之前學習的梯度下降法和更高

機器學習 | 吳恩達機器學習第六週學習筆記

課程視訊連結第六週PPT 下載密碼:zgkq 本週主要講解了如何設計機器學習系統和如何改進機器學習系統，包括一些模型選擇的方法，模型效能的評價指標，模型改進的方法等。目錄一、應用機器學習建議 1.決定下一步做什麼 2.評估假設函式 3.模型選擇和訓練、驗

機器學習 | 吳恩達機器學習第八週學習筆記

課程視訊連結第八週PPT 下載密碼:qedd 上週主要講解了支援向量機SVM的原理包括優化目標、大間隔以及核函式等SVM核心內容，以及SVM的使用。本週主要講解經典的無監督聚類演算法k-means，包括k-means的優化目標，原理以及一些引數設定細節；和降維演算法PCA的原理，

機器學習 | 吳恩達機器學習第七週學習筆記

課程視訊連結第七週PPT 下載密碼:tmss 上週主要講解了如何設計機器學習系統和如何改進機器學習系統，包括一些模型選擇的方法，模型效能的評價指標，模型改進的方法等。本週主要講解支援向量機SVM的原理包括優化目標、大間隔以及核函式等SVM核心內容，以及SVM的使用。 &nbs

Coursera-吳恩達-機器學習-第八週-程式設計作業: K-Means Clustering and PCA

本次文章內容： Coursera吳恩達機器學習課程，第八週程式設計作業。程式語言是Matlab。本文只是從程式碼結構上做的小筆記，更復雜的推導不在這裡。演算法分兩部分進行理解，第一部分是根據code對演算法進行綜述，第二部分是程式碼。本次作業分兩個part，第一個是K-Means Clu

機器學習 | 吳恩達機器學習第三週學習筆記

第三週PPT彙總下載連結:https://pan.baidu.com/s/101uY5KV_2i3Ey516DYma_A 密碼:8o4e 上一篇部落格主要介紹了第二週的課程的內容，包括多變數線性迴歸，使用梯度下降法求解多變數線性迴歸的實用技巧，特徵縮放與模型特徵選擇並

深度學習-吳恩達第一課第四周課程作業

在前面兩節課的基礎上，這次作業是訓練一個N層神經網路，來判斷一張圖片是否有貓，實現過程其實和第三週很相似，因為層數不確定，所以在向前傳播和反向傳播的時候會用到for迴圈，程式碼相對而言反而更精簡了。貼出的程式碼可能和老師給的模板不一樣，我沒有看到老師的原版課程作業，也是在網上

吳恩達 deep learning 第三週淺層神經網路

文章目錄神經網路概覽神經網路的表示計算神經網路的輸出多個例子中的向量化啟用函式為什麼需要非線性啟用函式啟用函式的導數神經網路的梯度下降

tensorflow+ tutorial 吳恩達第二課第三週作業

TensorFlow Tutorial Welcome to this week's programming assignment. Until now, you've always used numpy to build neural networks. Now we will step you

吳恩達 DeepLearning 第一課第二週程式設計題目及作業（可免費下載資源）

提示作業裡面會有需要用到的 Python 模組以及資料集。所以我下面再附上所需要的檔案下載連結，不把所有檔案連同作業放一起打包好的目的是讓第一次接觸 Python 的人更多的瞭解 Python ，萬事開頭難，希望大傢伙明白。檔案連結宣告這一

Coursera-AndrewNg(吳恩達)機器學習筆記——第三周

訓練 ros 方便 font 就是梯度下降全局最優用法郵件一.邏輯回歸問題（分類問題）生活中存在著許多分類問題，如判斷郵件是否為垃圾郵件；判斷腫瘤是惡性還是良性等。機器學習中邏輯回歸便是解決分類問題的一種方法。二分類：通常表示為y?{0,1}，0：“Negat

吳恩達機器學習第5周Neural Networks（Cost Function and Backpropagation）

and div bsp 關於邏輯回歸 info src clas 分享 5.1 Cost Function 假設訓練樣本為：{(x1),y(1)),(x(2),y(2)),...(x(m),y(m))} L = total no.of layers in network

吳恩達機器學習（第十四章）---無監督學習kmeans演算法

一、kmeans演算法 Kmeans演算法的流程： 1.根據我們要分的類別數，就是你要將資料分成幾類（k類），隨機初始化k個點（暫且稱為類別點） 2.計算每個資料點到k個類別點的距離，將其歸類到距離最近的那個類別點 3.計算每一類中包含的資料點的位置的平均值，比如，包含a(x1，y1

機器學習 | 吳恩達機器學習第八週程式設計作業(Python版）

1.實驗包含的檔案

2.KMeans實驗

3.K-means實驗完整程式碼

4.PCA實驗

5.PCA實驗完整程式碼

相關推薦