1. 程式人生 > >無監督學習小記(參考)

無監督學習小記(參考)

廣泛 個數 就是 sca 協方差矩陣 ear 元素 約束 方法

下面淩亂的小記一下無監督學習
無監督學習->聚類 降維
聚類:數據相似性
相似性的評估:兩個數據樣本間的距離
距離:歐氏距離 曼哈頓距離 馬氏距離 夾角余弦

sklearn 聚類算法 sklearn.cluster,如k-means 近鄰傳播 DBSCAN等
標準的數據輸入格式:[樣本個數,特征個數]定義的矩陣形式

介紹sklearn.cluster
|算法名稱|參數|可擴展性|相似度度量|
|-|-|-|-|

降維

主成分分析PCA

PCA常用於高維數據集的探索與可視化,還可以用於數據壓縮和預處理
可以把具有相關性的高維變量合成為線性無關的低維變量,稱為主成分,它能夠盡可能保留原始數據的信息。
一些術語
方差:各個樣本和樣本均值的差的平方和的均值,度量一組數據的分散程度
協方差:度量兩個變量之間的線性相關性程度,為0表示二者線性無關
協方差矩陣:由變量的協方差值構成的矩陣,是對稱陣
特征向量和特征值:略

PCA原理:矩陣的主成分就是其協方差矩陣對應的特征向量,按照對應的特征值大小進行排序,最大的特征值是第一主成分,其次是第二主成分,以此類推。
算法過程(參見周誌華書):
輸入:樣本集,低維空間維數d
過程:1、對所有樣本進行去中心化;2、計算樣本的協方差矩陣;3、對協方差矩陣做特征值分解;4、取最大的d個特征值所對應的特征向量
輸出:投影矩陣={特征向量}
使用:sklearn.decomposition.PCA

非負矩陣分解NMF

是在矩陣中所有元素均為非負數約束條件下的矩陣分解方法
基本思想:給定一個非負矩陣V,NMF能夠找到一個非負矩陣W和一個非負矩陣H,使得矩陣W和H的乘積近似等於矩陣V中的值。
W:基礎圖像矩陣,相當於從元矩陣V中抽取出的特征
H:系數矩陣
廣泛用於圖像分析、文本挖掘和語音處理等領域。
非負矩陣分解
矩陣分解的優化目標:最小化W矩陣H矩陣的乘積和原始矩陣之間的差。
使用:sklearn.decomposition.NMF

無監督學習小記(參考)