第九章 聚類 Clustering
阿新 • • 發佈:2019-01-27
第九章 聚類
(Unsupervised Learning)無監督學習:
訓練樣本的標記資訊是未知的,通過對無標記資料的訓練來找出資料內部所存在的規律以及性質.為進一步的資料分析打下基礎
1.知識點
聚類過程中會自動的形成簇結構,但是演算法對簇(cluster)沒有概念,這是在運算過程中自己出現的聚類現象,這個簇的名字需要自己來進行定義
聚類可作為一個單獨的過程來完成,用於去尋找資料的內部性質及分佈結構,當然也可以作為分類等其他學習任務的前驅過程.
當對資料的類不是很明確的時候,可以將資料先進行聚類,根據聚類結果將每個簇定義為一個類,再基於這些類進行訓練分類模型
效能度量(performance measure)
效能度量也叫聚類的”有效性指標(validity index)”
物以類聚:
簇內相似度高,簇間相似度低.
距離計算(distance measure)
閔科夫斯基距離,這是一種最常用的距離
可以變形成歐式距離和曼哈頓距離(典型的街區距離公式) 這都是經典的距離公式.
一個小插曲:公式在推導過程中經常會強調不失一般性,這個"不失一般性"是什麼意思?
原型聚類:第一步原型的初始化,第二步對根據不同的公式進行迭代優化更新求解.
K-means演算法,根據最小平方差公式(最小二乘法)來進行迭代優化
遞迴&迭代
簡單來說:遞迴就是函式不斷的呼叫自己,
迭代就是函式A不斷呼叫函式B的過程
知識點有點複雜,相對知識較多,還沒有完整的理論體系,先不著急學習.