無監督學習-K-means演算法

阿新 • • 發佈：2020-12-21

1、什麼是無監督學習

一家廣告平臺需要根據相似的人口學特徵和購買習慣將美國人口分成不同的小組，以便廣告客戶可以通過有關聯的廣告接觸到他們的目標客戶。
Airbnb 需要將自己的房屋清單分組成不同的社群，以便使用者能更輕鬆地查閱這些清單。
一個數據科學團隊需要降低一個大型資料集的維度的數量，以便簡化建模和降低檔案大小。

我們可以怎樣最有用地對其進行歸納和分組？我們可以怎樣以一種壓縮格式有效地表徵資料？這都是無監督學習的目標，之所以稱之為無監督，是因為這是從無標籤的資料開始學習的。

2、無監督學習包含演算法

聚類
- K-means(K均值聚類)
降維
- PCA

3、 K-means原理

我們先來看一下一個K-means的聚類效果圖

3.1 K-means聚類步驟

1、隨機設定K個特徵空間內的點作為初始的聚類中心
2、對於其他每個點計算到K箇中心的距離，未知的點選擇最近的一個聚類中心點作為標記類別
3、接著對著標記的聚類中心之後，重新計算出每個聚類的新中心點（平均值）
4、如果計算得出的新中心點與原中心點一樣，那麼結束，否則重新進行第二步過程

我們以一張圖來解釋效果

4、K-meansAPI

sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’)
- k-means聚類
- n_clusters:開始的聚類中心數量
- init:初始化方法，預設為'k-means ++’
- labels_:預設標記的型別，可以和真實值比較（不是值比較）

5、案例：k-means對Instacart Market使用者聚類

5.1 分析

1、降維之後的資料
2、k-means聚類
3、聚類結果顯示

5.2 程式碼

# 取500個使用者進行測試
cust = data[:500]
km = KMeans(n_clusters=4)
km.fit(cust)
pre = km.predict(cust)

問題：如何去評估聚類的效果呢？

6、Kmeans效能評估指標

6.1 輪廓係數

注：對於每個點i 為已聚類資料中的樣本，b_i 為i 到其它族群的所有樣本的距離最小值，a_i 為i 到本身簇的距離平均值。最終計算出所有的樣本點的輪廓係數平均值

6.2 輪廓係數值分析

分析過程（我們以一個藍1點為例）
- 1、計算出藍1離本身族群所有點的距離的平均值a_i
- 2、藍1到其它兩個族群的距離計算出平均值紅平均，綠平均，取最小的那個距離作為b_i
- 根據公式：極端值考慮：如果b_i >>a_i: 那麼公式結果趨近於1；如果a_i>>>b_i: 那麼公式結果趨近於-1

6.3 結論

**如果b_i>>a_i:趨近於1效果越好， b_i<

6.4 輪廓係數API

sklearn.metrics.silhouette_score(X, labels)
- 計算所有樣本的平均輪廓係數
- X：特徵值
- labels：被聚類標記的目標值

6.5 使用者聚類結果評估

silhouette_score(cust, pre)

7、K-means總結

特點分析：採用迭代式演算法，直觀易懂並且非常實用
缺點：容易收斂到區域性最優解(多次聚類)

注意：聚類一般做在分類之前

提問

1、線性迴歸的引數求解的方法是什麼?

答案: 正規方程和梯度下降

2、什麼是過擬合? 原因有哪些?

答案: 過擬合就是訓練誤差很小,但是測試誤差很大

原因有: 樣本偏差, 模型過於複雜

3、分類問題, 迴歸問題, 聚類問題的評估方法分別是什麼?

答案: 分類問題的評估方法是準確率, 精確率和召回率

迴歸問題的評估方法是均方差

聚類問題的評估方法是輪廓係數

無監督學習-K-means演算法

1、什麼是無監督學習一家廣告平臺需要根據相似的人口學特徵和購買習慣將美國人口分成不同的小組，以便廣告客戶可以通過有關聯的廣告接觸到他們的目標客戶。

監督學習，無監督學習常用演算法集合總結，引用scikit-learn庫（監督篇）

why寫這篇blog 最近在接觸這方面的知識，但是找了許多的筆記，都感覺沒有很好的總結出來，也正好當做是邊學習，邊複習著走。大佬輕噴。參考書目《python機器學習基礎教程》

簡單易學的機器學習演算法——K-Means++演算法

一、K-Means演算法存在的問題由於K-Means演算法的簡單且易於實現，因此K-Means演算法得到了很多的應用，但是從K-Means演算法的過程中發現，K-Means演算法中的聚類中心的個數k需要事先指定，這一點對於一些未知資料存

無監督學習 MoCo: Momentum Contrast for Unsupervised Visual Representation Learning

用於視覺表示學習的動量對比。作者：Kaiming He 以及FAIR的一眾大佬 Summary 這篇文章主要解決的是無監督視覺表示學習問題。作者從將對比學習看做字典查詢（dictionary look-up）出發，使用佇列（queue）和

邱錫鵬神經網路與深度學習課程【十三】——無監督學習和概率圖模型1

無監督學習定義：只從無標籤的資料中學習出一些有用的模式典型的無監督學習：深度學習中只考慮前兩個問題即可

機器學習 --- k-means

此文轉載自：https://blog.csdn.net/weixin_44196785/article/details/110188840#commentBox k-means是屬於機器學習裡面的非監督學習，通常是大家接觸到的第一個聚類演算法，其原理非常簡單，是一種典型的基於距

Tensorflow2.0 無監督學習AVE

技術標籤：TensorFlow Auto Encoder的升級版 import numpy as np import tensorflow as tf from PIL import Image

機器學習 - k-means聚類

k-means簡介 k-means是無監督學習下的一種聚類演算法，簡單說就是不需要資料標籤，僅靠特徵值就可以將資料分為指定的幾類。k-means演算法的核心就是通過計算每個資料點與k個質心（或重心）之間的距離，找出與各質心

07無監督學習-降維PCA

PCA方法及其應用主成分分析(PCA) 主成分分析(Principal Component Analysis, PCA）是最常用的一種降維方法，通常用於高維資料集的探索與視覺化，還可以用作資料壓縮和預處理等。

08無監督學習-降維NMF

NMF方法及例項非負矩陣分解（NMF）非負矩陣分解(Non-negative Matrix Factorization，NMF)是在矩陣中所有元素均為非負數約束條件之下的矩陣分解方法。

k-means演算法

k：初始中心點個數，計劃聚類樹---->想聚集的個數，中心點也可叫做質點，可以任意選擇點數

【機器學習基礎】無監督學習（2）——降維之LLE和TSNE

在上一節介紹了一種最常見的降維方法PCA，本節介紹另一種降維方法LLE，本來打算對於其他降維演算法一併進行一個簡介，不過既然看到這裡了，就對這些演算法做一個相對詳細的學習吧。

對比學習（Contrastive Learning）綜述——無監督學習+特徵抽象，損失函式：同類儘可能近，不同類儘可能遠，思想和聚類類似

寫在前面由於最近開始在看對比學習的一些相關工作，想把學到的東西記錄一下。本文前半部分基於Ankesh Anand關於Contrastive Learning的blog中的內容，想看原文的可以移步下面連結：

監督學習無監督學習半監督學習自監督學習

機器學習中有幾個帶有“監督”二字的名詞，易混淆，寫篇部落格解釋一下下~

無監督學習 Kmeans

無監督學習自動對輸入資料進行分類或者分群優點：演算法不受監督資訊（偏見）的約束，可能考慮到新的資訊

【Python環境】監督學習之KNN演算法

1、ipython是一個python的互動式shell，比預設的python shell好用得多，支援變數自動補全，自動縮排，支援bash shell命令，內建了許多很有用的功能和函式。在ubuntu下只要sudo apt-get install ipython 就裝好了，通

【Scikit-Learn 中文文件】新異類和異常值檢測 - 無監督學習 - 使用者指南 | ApacheCN

中文文件: http://sklearn.apachecn.org/cn/stable/modules/outlier_detection.html 英文文件: http://sklearn.apachecn.org/en/stable/modules/outlier_detection.html

python 聚類分析實戰案例:K-means演算法(原理原始碼)

K-means演算法：關於步驟：參考之前的部落格關於程式碼與資料：暫時整理程式碼如下：後期會附上github地址，上傳原始資料與程式碼完整版，

【機器學習基礎】無監督學習（3）——AutoEncoder

前面主要回顧了無監督學習中的三種降維方法，本節主要學習另一種無監督學習AutoEncoder，這個方法在無監督學習領域應用比較廣泛，尤其是其思想比較通用。

python基於K-means聚類演算法的影象分割

1 K-means演算法實際上，無論是從演算法思想，還是具體實現上，K-means演算法是一種很簡單的演算法。它屬於無監督分類，通過按照一定的方式度量樣本之間的相似度，通過迭代更新聚類中心，當聚類中心不再移動或移動