吳恩達機器學習筆記八 K-means聚類演算法

阿新 • • 發佈：2018-12-10

1. 代價函式

K-means演算法是比較容易理解的，它屬於無監督學習方法，所以訓練樣本資料不再含有標籤。我們假設有樣本資料 $x^{(1)}, x^{(2)}, \dots, x^{(m)}$ ，我們選擇設定 $K$ 個聚類中心 $u_{1}, u_{2}, \dots, u_{K}$ ，K-means演算法的代價函式表示式如下

J (c^{(1)}, c^{(2)}, \dots, c^{(m)}, u_{1}, u_{2}, \dots, u_{K}) = \frac{1}{m} \sum_{i = 1}^{m} | | x^{(i)} - u_{c^{(i)}} | |^{2}

其中

c^{(i)} \in [1, K]

表示距離

x^{(i)}

2. 具體演算法

K-means演算法的具體流程如下：

Repeat { for i = 1 to m c(i) := index (form 1 to K) of cluster centroid closest to x(i) for k = 1 to K μk := average (mean) of points assigned to cluster k }

其中，第一個迴圈用於更新每個樣本距離最近的聚類中心，第二個迴圈用於更新聚類中心所處的位置。

3. 隨機初始化

通常我們會隨機選取 $K$

K

個樣本資料作為初始聚類中心，但是這樣可能得到一個區域性最小點。其中一個解決方法是，

多次執行K-均值演算法，每一次都重新進行隨機初始化，最後再比較多次執行K-均值的結果，選擇代價函式最小的結果。

但是，這種方法在 $K \in [2, 10]$ ，即 $K$ 較小的時候還是可行的，但是如果較大，這麼做也可能不會有明顯地改善。

4.聚類數的選取

絕大多數是需要根據資料人工選取的。肘圖的方法可能有所幫助，比如得到左側結果的時候，我們就可以選擇肘的位置的 $K$ 作為聚類數。但肘圖不一定可行，比如得到圖中右側結果的時候。這裡寫圖片描述

吳恩達機器學習筆記八 K-means聚類演算法

1. 代價函式 K-means演算法是比較容易理解的，它屬於無監督學習方法，所以訓練樣本資料不再含有標籤。我們假設有樣本資料x(1),x(2),⋯,x(m)x(1),x(2),⋯,x(m)，我們選擇設定KK個聚類中心u1,u2,⋯,uKu1,u2,⋯,uK

機器學習筆記之K-means聚類

K-means聚類是聚類分析中比較基礎的演算法，屬於典型的非監督學習演算法。其定義為對未知標記的資料集，按照資料內部存在的資料特徵將資料集劃分為多個不同的類別，使類別內的資料儘可能接近，類別間的資料相似度比較大。用於衡量距離的方法主要有曼哈頓距離、歐氏距離、切比雪夫距離，其中

MatLab建模學習筆記14——K-Means聚類演算法

網際網路的發展帶動雲端計算、虛擬化、大資料等IT新技術的興起，各行各業的網際網路化日趨明顯。其中大資料的興起和發展壯大成為了IT時代或者說資訊時代最為典型的特徵之一。僅就大資料本身而言，其本身就具有資料體積大、資料多樣性、價值密度低、資料更新快等特點。所以，要想

機器學習(25)之K-Means聚類演算法詳解

微信公眾號關鍵字全網搜尋最新排名【機器學習演算法】：排名第一【機器學習】：排名第一【Python】：排名第三【演算法】：排名第四前言 K-Means演算法是無監督的聚類演算法，它實現起來比較簡單，聚類效果也不錯，因此應用很廣泛。K-Means演算法有大量的變體，本文就從最傳統的K-Means演算

[吳恩達機器學習筆記]13聚類K-means

沒有 rand 幫助聯系 method ima 運用重新 function 13.聚類覺得有用的話,歡迎一起討論相互學習~Follow Me 13.1無監督學習簡介從監督學習到無監督學習在一個典型的監督學習中，我們有一個有標簽的訓練集，我們的目標是找到能夠區分正

機器學習 | 吳恩達機器學習第八週學習筆記

課程視訊連結第八週PPT 下載密碼:qedd 上週主要講解了支援向量機SVM的原理包括優化目標、大間隔以及核函式等SVM核心內容，以及SVM的使用。本週主要講解經典的無監督聚類演算法k-means，包括k-means的優化目標，原理以及一些引數設定細節；和降維演算法PCA的原理，

Coursera-吳恩達-機器學習-第八週-程式設計作業: K-Means Clustering and PCA

本次文章內容： Coursera吳恩達機器學習課程，第八週程式設計作業。程式語言是Matlab。本文只是從程式碼結構上做的小筆記，更復雜的推導不在這裡。演算法分兩部分進行理解，第一部分是根據code對演算法進行綜述，第二部分是程式碼。本次作業分兩個part，第一個是K-Means Clu

Coursera-AndrewNg(吳恩達)機器學習筆記——第三周

訓練 ros 方便 font 就是梯度下降全局最優用法郵件一.邏輯回歸問題（分類問題）生活中存在著許多分類問題，如判斷郵件是否為垃圾郵件；判斷腫瘤是惡性還是良性等。機器學習中邏輯回歸便是解決分類問題的一種方法。二分類：通常表示為y?{0,1}，0：“Negat

吳恩達機器學習筆記 —— 5 多變量線性回歸

擬合進行 image 價格常用從表 cnblogs 優化深度本篇主要講的是多變量的線性回歸，從表達式的構建到矩陣的表示方法，再到損失函數和梯度下降求解方法，再到特征的縮放標準化，梯度下降的自動收斂和學習率調整，特征的常用構造方法、多維融合、高次項、平方根，最後基

吳恩達機器學習筆記 —— 9 神經網絡學習

滿了線性回歸復雜 amp 技術分享 tps 機器神經網絡前饋型神經網絡本章講述了神經網絡的起源與神經元模型，並且描述了前饋型神經網絡的構造。更多內容參考機器學習&深度學習在傳統的線性回歸或者邏輯回歸中，如果特征很多，想要手動組合很多有效的特征是不

吳恩達機器學習筆記（六） —— 支持向量機SVM

次數括號圖片最小我們支持向量機svm UNC 意思 strong 主要內容：一.損失函數二.決策邊界三.Kernel 四.使用SVM 一.損失函數二.決策邊界對於：當C非常大時，括號括起來的部分就接近於0，所以就變成了：

吳恩達機器學習筆記 —— 17 推薦系統

htm 特征問題這就是 ref 圖片系統得出工業本章講述了推薦系統相關的知識，比如基於內容的推薦算法、基於協同過濾的推薦算法以及實踐中遇到的問題。更多內容參考機器學習&深度學習推薦系統是機器學習在工業界應用最廣泛的方向，很多電子商務類、咨詢類的

吳恩達機器學習筆記 —— 12 機器學習系統設計

不知道 cor 算法項目詞語樣本我們們的 ... http://www.cnblogs.com/xing901022/p/9362339.html 本章主要圍繞機器學習的推薦實踐過程以及評測指標，一方面告訴我們如何優化我們的模型；另一方面告訴我們對於分類的算法

吳恩達機器學習筆記 —— 14 無監督學習

www 最簡業務一次曲線 logs img 下一個 com http://www.cnblogs.com/xing901022/p/9368432.html 本章講述的是第一個無監督的機器學習算法，在無監督的算法中，樣本數據只有特征向量，並沒有標註的y值。比如聚類

吳恩達機器學習筆記 —— 19 應用舉例：照片OCR（光學字符識別）

參考 https ocr 噪聲也說字符 www. 定位 cnblogs http://www.cnblogs.com/xing901022/p/9374258.html 本章講述的是一個復雜的機器學習系統，通過它可以看到機器學習的系統是如何組裝起來的；另外也說明了一

吳恩達機器學習筆記 —— 11 應用機器學習的建議

切分 image 們的正則化如果 mage 樣本獲得建議 http://www.cnblogs.com/xing901022/p/9356783.html 本篇講述了在機器學習應用時，如何進行下一步的優化。如訓練樣本的切分驗證？基於交叉驗證的參數與特征選擇？在訓

吳恩達機器學習筆記

叠代公式 spec end webkit 測量 ase letter s函數 1 機器學習的含義（1）Field of study that gives computers the ability to learn without being explicitly p

吳恩達機器學習筆記1-機器學習概述

可能 perf hat 定義視頻 nbsp 這樣的 spec 學習能力今天看了視頻的第一章-緒論：初識機器學習（Machine Learning） 1、定義： Arthur Samuel（1959）.Machine Learning:Field of study tha

吳恩達機器學習筆記2-監督學習

word ins problems 一個 should regress ssi pri read 英文; Supervised Learning 　　In supervised learning, we are given a data set and already kn

吳恩達機器學習筆記4-單變量線性回歸

alt 方法 bsp 目標 .com 函數 bubuko 機器學習絕對值今天看個5個課時的視頻，對假設函數、代價函數、以及梯度下降有了一個大概的了解。假設函數：代價函數：我們的目標就是求得J的最小值梯度下降：在一個上坡上找一個點，求得這個點周圍的絕對值最大的導數

吳恩達機器學習 筆記八 K-means聚類演算法

1. 代價函式

2. 具體演算法

3. 隨機初始化

4.聚類數的選取

相關推薦

吳恩達機器學習筆記八 K-means聚類演算法