一文讀懂聚類
我們不管是做分類還是迴歸,我們拿到的資料都是這麼一對資料,也就是,我們那到是的是這麼一堆資料,我們不管是建立什麼樣的模型,比如說是,引數是,然後再與實際值ý帶進損失函式求一個損失,我們去學這模型是一個什麼東西,我們最後把學到了,我們帶入一個得到一個值,這個要使它與實際的那個ý儘量的接近的,這就是我們的目的。而這樣一個東西,帶標記,帶類別或者是帶值的,這是一個有監督的學習。
但有些時候我們沒有這y,只有x的時候,我們也能不能對這個資料根據它的相似性,就是根據X自身的相似性將資料分成若干個部分呢?這樣就叫做無監督,而聚類是最重要的無監督。
而事實上呢,我們不妨這樣來想,假如說我們現在拿到了這樣一堆資料
我們再舉個很有趣的例子,大家還記得PCA這麼做的嗎?我們現在有一個m行n列的x,而是一個Ñ階方陣。如果要去求它的特徵值和特徵
聚類的定義:聚類就是對大量未標註的資料集按資料的內在相似性將資料集劃分為多個類別,使類別內的資料相似度較大而類別間的資料相似度較小。
例如協同過濾,就是做推薦系統的協同過濾,協同過濾其實本質上是一個無監督的學習方式,只有若干個使用者和若干個商品的這樣一個矩陣,而且它還有可能是稀疏的。我們通過讓大量的使用者齊心協力共同把那個喜好的商品給過濾出來,齊心協力做一個過濾嘛,簡稱協同過濾。
在根據相似性來做聚類的時候,第一步就是如何來度量這個相似性,相似性的最為簡單的方式就是歐式距離。