無監督學習 Kmeans

阿新 • • 發佈：2022-04-21

無監督學習

自動對輸入資料進行分類或者分群

優點：
演算法不受監督資訊（偏見）的約束，可能考慮到新的資訊
不需要標籤資料，極大程度擴大資料樣本

Kmeans 聚類

根據資料與中心點距離劃分類別
基於類別資料更新中心點
重複過程直到收斂
特點：實現簡單、收斂快；需要指定類別數量（需要告訴計算機要分成幾類）

選擇聚類的個數
確定聚類中心
根據點到聚類中心聚類確定各個點所屬類別
更具各個類別資料更新聚類中心
重複以上步驟直到收斂（中心點不再變化）

均值漂移聚類 Meanshift

在中心點一定區域檢索資料點
更新中心
重複流程到中心點穩定

DBSCAN演算法(基於密度的空間聚類演算法)

基於區域點密度篩選有效資料
基於有效資料向周邊擴張，直到沒有新點加入
特點：過濾噪音資料；不需要人為選擇類別數量；資料密度不同時影響結果

KNN K鄰近分類監督學習

給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的K個例項，這K個例項的多數屬於某個類，就把該輸入例項分類到這個類中。

參考連結

https://blog.csdn.net/weixin_46344368/article/details/106036451?spm=1001.2014.3001.5502

code

#載入資料並預覽
import pandas as pd
import numpy as np
data = pd.read_csv('data.csv')
data.head()
#定義X和y
X = data.drop(['labels'],axis=1)
y = data.loc[:,'labels']
y.head()#預覽
pd.value_counts(y) #檢視類別數(這裡有0，1，2三個類別)以及每個類別對應的樣本數
#匯入資料以及資料視覺化
%matplotlib inline
from matplotlib import pyplot as plt
fig1 = plt.figure()
plt.scatter(X.loc[:,'V1'],X.loc[:,'V2'])
plt.title("un-labled data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.show()
#給出標籤
fig1 = plt.figure()
label0 = plt.scatter(X.loc[:,'V1'][y==0],X.loc[:,'V2'][y==0])
label1 = plt.scatter(X.loc[:,'V1'][y==1],X.loc[:,'V2'][y==1])
label2 = plt.scatter(X.loc[:,'V1'][y==2],X.loc[:,'V2'][y==2])

plt.title("labled data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.show()

#建立模型
from sklearn.cluster import KMeans
KM = KMeans(n_clusters=3,random_state=0)
KM.fit(X)

#給出中心點
centers = KM.cluster_centers_

fig3 = plt.figure()
label0 = plt.scatter(X.loc[:,'V1'][y==0],X.loc[:,'V2'][y==0])
label1 = plt.scatter(X.loc[:,'V1'][y==1],X.loc[:,'V2'][y==1])
label2 = plt.scatter(X.loc[:,'V1'][y==2],X.loc[:,'V2'][y==2])

plt.title("labled data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])
plt.show()

#測試資料: V1=80,V2=60
y_predict_test = KM.predict([[80,60]])
print(y_predict_test)

y_predict = KM.predict(X)
print(pd.value_counts(y_predict),'\n',pd.value_counts(y))

from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y,y_predict)
print(accuracy)

fig4 = plt.subplot(121)
label0 = plt.scatter(X.loc[:,'V1'][y_predict==0],X.loc[:,'V2'][y_predict==0])
label1 = plt.scatter(X.loc[:,'V1'][y_predict==1],X.loc[:,'V2'][y_predict==1])
label2 = plt.scatter(X.loc[:,'V1'][y_predict==2],X.loc[:,'V2'][y_predict==2])

plt.title("predicted data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])

fig5 = plt.subplot(122)
label0 = plt.scatter(X.loc[:,'V1'][y==0],X.loc[:,'V2'][y==0])
label1 = plt.scatter(X.loc[:,'V1'][y==1],X.loc[:,'V2'][y==1])
label2 = plt.scatter(X.loc[:,'V1'][y==2],X.loc[:,'V2'][y==2])

plt.title("labled data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])
plt.show()

#矯正結果
y_corrected = []
for i in y_predict:
    if i==0:
        y_corrected.append(1)
    elif i==1:
        y_corrected.append(2)
    else:
        y_corrected.append(0)
print(pd.value_counts(y_corrected),pd.value_counts(y))

print(accuracy_score(y,y_corrected))

y_corrected = np.array(y_corrected)
print(type(y_corrected))

fig6 = plt.subplot(121)
label0 = plt.scatter(X.loc[:,'V1'][y_corrected==0],X.loc[:,'V2'][y_corrected==0])
label1 = plt.scatter(X.loc[:,'V1'][y_corrected==1],X.loc[:,'V2'][y_corrected==1])
label2 = plt.scatter(X.loc[:,'V1'][y_corrected==2],X.loc[:,'V2'][y_corrected==2])

plt.title("corrected data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])

fig7 = plt.subplot(122)
label0 = plt.scatter(X.loc[:,'V1'][y==0],X.loc[:,'V2'][y==0])
label1 = plt.scatter(X.loc[:,'V1'][y==1],X.loc[:,'V2'][y==1])
label2 = plt.scatter(X.loc[:,'V1'][y==2],X.loc[:,'V2'][y==2])

plt.title("labled data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])
plt.show()

# eatablish a KNN model
from sklearn.neighbors import KNeighborsClassifier
KNN = KNeighborsClassifier(n_neighbors = 3)
KNN.fit(X,y)

# predict based on the test data V1 = 80 V2 = 60
y_predict_knn_test = KNN.predict([[80,60]])
y_predict_knn = KNN.predict(X)
print(y_predict_knn_test)
print('Knn accuracy:',accuracy_score(y,y_predict_knn))

print(pd.value_counts(y_predict_knn),pd.value_counts(y))

fig8 = plt.subplot(121)
label0 = plt.scatter(X.loc[:,'V1'][y_predict_knn==0],X.loc[:,'V2'][y_predict_knn==0])
label1 = plt.scatter(X.loc[:,'V1'][y_predict_knn==1],X.loc[:,'V2'][y_predict_knn==1])
label2 = plt.scatter(X.loc[:,'V1'][y_predict_knn==2],X.loc[:,'V2'][y_predict_knn==2])

plt.title("knn predict data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])

fig9 = plt.subplot(122)
label0 = plt.scatter(X.loc[:,'V1'][y==0],X.loc[:,'V2'][y==0])
label1 = plt.scatter(X.loc[:,'V1'][y==1],X.loc[:,'V2'][y==1])
label2 = plt.scatter(X.loc[:,'V1'][y==2],X.loc[:,'V2'][y==2])

plt.title("labled data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])
plt.show()

# try meanshift model
from sklearn.cluster import MeanShift,estimate_bandwidth
# obtain the bandwidth
bw = estimate_bandwidth(X, n_samples=500)
print(bw)

# establish the meanshift model
ms = MeanShift(bandwidth=bw)
ms.fit(X)

y_predict_ms = ms.predict(X)
print(pd.value_counts(y_predict_ms), pd.value_counts(y))

fig10 = plt.subplot(121)
label0 = plt.scatter(X.loc[:,'V1'][y_predict_ms==0],X.loc[:,'V2'][y_predict_ms==0])
label1 = plt.scatter(X.loc[:,'V1'][y_predict_ms==1],X.loc[:,'V2'][y_predict_ms==1])
label2 = plt.scatter(X.loc[:,'V1'][y_predict_ms==2],X.loc[:,'V2'][y_predict_ms==2])

plt.title("meanshift predict data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])

fig11 = plt.subplot(122)
label0 = plt.scatter(X.loc[:,'V1'][y==0],X.loc[:,'V2'][y==0])
label1 = plt.scatter(X.loc[:,'V1'][y==1],X.loc[:,'V2'][y==1])
label2 = plt.scatter(X.loc[:,'V1'][y==2],X.loc[:,'V2'][y==2])

plt.title("labled data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])
plt.show()

#矯正結果
y_corrected_ms = []
for i in y_predict_ms:
    if i==0:
        y_corrected_ms.append(2)
    elif i==1:
        y_corrected_ms.append(1)
    else:
        y_corrected_ms.append(0)
print(pd.value_counts(y_corrected_ms),pd.value_counts(y))

# convert the results to numpy array
y_corrected_ms = np.array(y_corrected_ms)
print(type(y_corrected_ms))

fig12 = plt.subplot(121)
label0 = plt.scatter(X.loc[:,'V1'][y_corrected_ms==0],X.loc[:,'V2'][y_corrected_ms==0])
label1 = plt.scatter(X.loc[:,'V1'][y_corrected_ms==1],X.loc[:,'V2'][y_corrected_ms==1])
label2 = plt.scatter(X.loc[:,'V1'][y_corrected_ms==2],X.loc[:,'V2'][y_corrected_ms==2])

plt.title("meanshift predict data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])

fig13 = plt.subplot(122)
label0 = plt.scatter(X.loc[:,'V1'][y==0],X.loc[:,'V2'][y==0])
label1 = plt.scatter(X.loc[:,'V1'][y==1],X.loc[:,'V2'][y==1])
label2 = plt.scatter(X.loc[:,'V1'][y==2],X.loc[:,'V2'][y==2])

plt.title("labled data")
plt.xlabel('V1')
plt.ylabel('V2')
plt.legend((label0,label1,label2),('label0','label1','label2'))
plt.scatter(centers[:,0],centers[:,1])
plt.show()

image

無監督學習 Kmeans

無監督學習自動對輸入資料進行分類或者分群優點：演算法不受監督資訊（偏見）的約束，可能考慮到新的資訊

無監督學習 MoCo: Momentum Contrast for Unsupervised Visual Representation Learning

用於視覺表示學習的動量對比。作者：Kaiming He 以及FAIR的一眾大佬 Summary 這篇文章主要解決的是無監督視覺表示學習問題。作者從將對比學習看做字典查詢（dictionary look-up）出發，使用佇列（queue）和

邱錫鵬神經網路與深度學習課程【十三】——無監督學習和概率圖模型1

無監督學習定義：只從無標籤的資料中學習出一些有用的模式典型的無監督學習：深度學習中只考慮前兩個問題即可

無監督學習-K-means演算法

1、什麼是無監督學習一家廣告平臺需要根據相似的人口學特徵和購買習慣將美國人口分成不同的小組，以便廣告客戶可以通過有關聯的廣告接觸到他們的目標客戶。

Tensorflow2.0 無監督學習AVE

技術標籤：TensorFlow Auto Encoder的升級版 import numpy as np import tensorflow as tf from PIL import Image

07無監督學習-降維PCA

PCA方法及其應用主成分分析(PCA) 主成分分析(Principal Component Analysis, PCA）是最常用的一種降維方法，通常用於高維資料集的探索與視覺化，還可以用作資料壓縮和預處理等。

08無監督學習-降維NMF

NMF方法及例項非負矩陣分解（NMF）非負矩陣分解(Non-negative Matrix Factorization，NMF)是在矩陣中所有元素均為非負數約束條件之下的矩陣分解方法。

監督學習，無監督學習常用演算法集合總結，引用scikit-learn庫（監督篇）

why寫這篇blog 最近在接觸這方面的知識，但是找了許多的筆記，都感覺沒有很好的總結出來，也正好當做是邊學習，邊複習著走。大佬輕噴。參考書目《python機器學習基礎教程》

【機器學習基礎】無監督學習（2）——降維之LLE和TSNE

在上一節介紹了一種最常見的降維方法PCA，本節介紹另一種降維方法LLE，本來打算對於其他降維演算法一併進行一個簡介，不過既然看到這裡了，就對這些演算法做一個相對詳細的學習吧。

對比學習（Contrastive Learning）綜述——無監督學習+特徵抽象，損失函式：同類儘可能近，不同類儘可能遠，思想和聚類類似

寫在前面由於最近開始在看對比學習的一些相關工作，想把學到的東西記錄一下。本文前半部分基於Ankesh Anand關於Contrastive Learning的blog中的內容，想看原文的可以移步下面連結：

監督學習無監督學習半監督學習自監督學習

機器學習中有幾個帶有“監督”二字的名詞，易混淆，寫篇部落格解釋一下下~

【Scikit-Learn 中文文件】新異類和異常值檢測 - 無監督學習 - 使用者指南 | ApacheCN

中文文件: http://sklearn.apachecn.org/cn/stable/modules/outlier_detection.html 英文文件: http://sklearn.apachecn.org/en/stable/modules/outlier_detection.html

【機器學習基礎】無監督學習（3）——AutoEncoder

前面主要回顧了無監督學習中的三種降維方法，本節主要學習另一種無監督學習AutoEncoder，這個方法在無監督學習領域應用比較廣泛，尤其是其思想比較通用。

基於關係推理的自監督學習無標記訓練

作者|Chien Vu 編譯|Flin 來源|towardsdatascience 背景與挑戰

無監督深度估計、運動估計的深度學習方法（二）

技術標籤：視覺里程計depth estimation深度學習自動駕駛計算機視覺在自監督深度估計中，一般輸入2張影象（若為視訊，則輸入鄰近的兩幀影象）frame1和frame2，模型先估計相機拍攝這2張影象是的姿態變化pose，然後

智慧主題檢測與無監督機器學習：識別顏色教程

介紹人工智慧學習通常由兩種主要方法組成：監督學習和無監督的學習。監督學習包括使用現有的訓練集，這種訓練集由預先標記的分類資料列組成。機器學習演算法會發現資料的特徵和這一列的標籤(或輸出)之間的關聯。通

機器學習的非監督學習總結

#分解：可以學習Sklearn的使用者指南中獨立成分分析、因子分析、稀疏編碼等https://scikit-learn.org/stable/modules/decomposition.html#decompositionsimport numpy as npfrom sklearn.datasets import load_breas

自訓練和半監督學習介紹

作者|Doug Steen 編譯|VK 來源|Towards Data Science 當涉及到機器學習分類任務時，用於訓練演算法的資料越多越好。在監督學習中，這些資料必須根據目標類進行標記，否則，這些演算法將無法學習獨立變數和目標變數之

NeurIPS 2020 | 資料類別不平衡/長尾分佈？不妨利用半監督或自監督學習

作者：Yuzhe Yang 連結：https://zhuanlan.zhihu.com/p/259710601 本文轉載自知乎，作者已授權，未經許可請勿二次轉載

Self2Self With Dropout: Learning Self-Supervised Denoising From Single Image【使用單張影象進行自監督學習去噪】

文章目錄 Self2Self With Dropout: Learning Self-Supervised Denoising From Single Image【使用單張影象進行自監督學習去噪】一、相關概念1.1 監督學習（Supervised learning）1.2 無監督學習（Unsuper

無監督學習 Kmeans

無監督學習

Kmeans 聚類

均值漂移聚類 Meanshift

DBSCAN演算法(基於密度的空間聚類演算法)

KNN K鄰近分類監督學習

參考連結

code

image

相關推薦