探索推薦引擎內部的祕密，第 3 部分

深入推薦引擎相關演算法 - 聚類

趙晨婷和馬春娥
2011 年 3 月 24 日釋出

系列內容：

此內容是該系列 3 部分中的第 3 部分：探索推薦引擎內部的祕密

聚類分析

什麼是聚類分析？

聚類 (Clustering) 就是將資料物件分組成為多個類或者簇 (Cluster)，它的目標是：在同一個簇中的物件之間具有較高的相似度，而不同簇中的物件差別較大。所以，在很多應用中，一個簇中的資料物件可以被作為一個整體來對待，從而減少計算量或者提高計算質量。

其實聚類是一個人們日常生活的常見行為，即所謂“物以類聚，人以群分”，核心的思想也就是聚類。人們總是不斷地改進下意識中的聚類模式來學習如何區分各個事物和人。同時，聚類分析已經廣泛的應用在許多應用中，包括模式識別，資料分析，影象處理以及市場研究。通過聚類，人們能意識到密集和稀疏的區域，發現全域性的分佈模式，以及資料屬性之間的有趣的相互關係。

聚類同時也在 Web 應用中起到越來越重要的作用。最被廣泛使用的既是對 Web 上的文件進行分類，組織資訊的釋出，給使用者一個有效分類的內容瀏覽系統（入口網站），同時可以加入時間因素，進而發現各個類內容的資訊發展，最近被大家關注的主題和話題，或者分析一段時間內人們對什麼樣的內容比較感興趣，這些有趣的應用都得建立在聚類的基礎之上。作為一個數據挖掘的功能，聚類分析能作為獨立的工具來獲得資料分佈的情況，觀察每個簇的特點，集中對特定的某些簇做進一步的分析，此外，聚類分析還可以作為其他演算法的預處理步驟，簡化計算量，提高分析效率，這也是我們在這裡介紹聚類分析的目的。

不同的聚類問題

對於一個聚類問題，要挑選最適合最高效的演算法必須對要解決的聚類問題本身進行剖析，下面我們就從幾個側面分析一下聚類問題的需求。

聚類結果是排他的還是可重疊的

為了很好理解這個問題，我們以一個例子進行分析，假設你的聚類問題需要得到二個簇：“喜歡詹姆斯卡梅隆電影的使用者”和“不喜歡詹姆斯卡梅隆的使用者”，這其實是一個排他的聚類問題，對於一個使用者，他要麼屬於“喜歡”的簇，要麼屬於不喜歡的簇。但如果你的聚類問題是“喜歡詹姆斯卡梅隆電影的使用者”和“喜歡里奧納多電影的使用者”，那麼這個聚類問題就是一個可重疊的問題，一個使用者他可以既喜歡詹姆斯卡梅隆又喜歡里奧納多。

所以這個問題的核心是，對於一個元素，他是否可以屬於聚類結果中的多個簇中，如果是，則是一個可重疊的聚類問題，如果否，那麼是一個排他的聚類問題。

基於層次還是基於劃分

其實大部分人想到的聚類問題都是“劃分”問題，就是拿到一組物件，按照一定的原則將它們分成不同的組，這是典型的劃分聚類問題。但除了基於劃分的聚類，還有一種在日常生活中也很常見的型別，就是基於層次的聚類問題，它的聚類結果是將這些物件分等級，在頂層將物件進行大致的分組，隨後每一組再被進一步的細分，也許所有路徑最終都要到達一個單獨例項，這是一種“自頂向下”的層次聚類解決方法，對應的，也有“自底向上”的。其實可以簡單的理解，“自頂向下”就是一步步的細化分組，而“自底向上”就是一步步的歸併分組。

簇數目固定的還是無限制的聚類

這個屬性很好理解，就是你的聚類問題是在執行聚類演算法前已經確定聚類的結果應該得到多少簇，還是根據資料本身的特徵，由聚類演算法選擇合適的簇的數目。

基於距離還是基於概率分佈模型

在本系列的第二篇介紹協同過濾的文章中，我們已經詳細介紹了相似性和距離的概念。基於距離的聚類問題應該很好理解，就是將距離近的相似的物件聚在一起。相比起來，基於概率分佈模型的，可能不太好理解，那麼下面給個簡單的例子。

一個概率分佈模型可以理解是在 N 維空間的一組點的分佈，而它們的分佈往往符合一定的特徵，比如組成一個特定的形狀。基於概率分佈模型的聚類問題，就是在一組物件中，找到能符合特定分佈模型的點的集合，他們不一定是距離最近的或者最相似的，而是能完美的呈現出概率分佈模型所描述的模型。

下面圖 1 給出了一個例子，對同樣一組點集，應用不同的聚類策略，得到完全不同的聚類結果。左側給出的結果是基於距離的，核心的原則就是將距離近的點聚在一起，右側給出的基於概率分佈模型的聚類結果，這裡採用的概率分佈模型是一定弧度的橢圓。圖中專門標出了兩個紅色的點，這兩點的距離很近，在基於距離的聚類中，將他們聚在一個類中，但基於概率分佈模型的聚類則將它們分在不同的類中，只是為了滿足特定的概率分佈模型（當然這裡我特意舉了一個比較極端的例子）。所以我們可以看出，在基於概率分佈模型的聚類方法裡，核心是模型的定義，不同的模型可能導致完全不同的聚類結果。

圖 1 基於距離和基於概率分佈模型的聚類問題

Apache Mahout 中的聚類分析框架

Apache Mahout 是 Apache Software Foundation (ASF) 旗下的一個開源專案，提供一些可擴充套件的機器學習領域經典演算法的實現，旨在幫助開發人員更加方便快捷地建立智慧應用程式，並且，在 Mahout 的最近版本中還加入了對 Apache Hadoop 的支援，使這些演算法可以更高效的執行在雲端計算環境中。

關於 Apache Mahout 的安裝和配置請參考《基於 Apache Mahout 構建社會化推薦引擎》，它是筆者 09 年發表的一篇關於基於 Mahout 實現推薦引擎的 developerWorks 文章，其中詳細介紹了 Mahout 的安裝步驟。

Mahout 中提供了常用的多種聚類演算法，涉及我們剛剛討論過的各種型別演算法的具體實現，下面我們就進一步深入幾個典型的聚類演算法的原理，優缺點和實用場景，以及如何使用 Mahout 高效的實現它們。

深入聚類演算法

深入介紹聚類演算法之前，這裡先對 Mahout 中對各種聚類問題的資料模型進行簡要的介紹。

資料模型

Mahout 的聚類演算法將物件表示成一種簡單的資料模型：向量 (Vector)。在向量資料描述的基礎上，我們可以輕鬆的計算兩個物件的相似性，關於向量和向量的相似度計算，本系列的上一篇介紹協同過濾演算法的文章中已經進行了詳細的介紹，請參考《“探索推薦引擎內部的祕密”系列 - Part 2: 深入推薦引擎相關演算法 -- 協同過濾》。

Mahout 中的向量 Vector 是一個每個域是浮點數 (double) 的複合物件，最容易聯想到的實現就是一個浮點數的陣列。但在具體應用由於向量本身資料內容的不同，比如有些向量的值很密集，每個域都有值；有些呢則是很稀疏，可能只有少量域有值，所以 Mahout 提供了多個實現：

DenseVector，它的實現就是一個浮點數陣列，對向量裡所有域都進行儲存，適合用於儲存密集向量。
RandomAccessSparseVector 基於浮點數的 HashMap 實現的，key 是整形 (int) 型別，value 是浮點數 (double) 型別，它只儲存向量中不為空的值，並提供隨機訪問。
SequentialAccessVector 實現為整形 (int) 型別和浮點數 (double) 型別的並行陣列，它也只儲存向量中不為空的值，但只提供順序訪問。

使用者可以根據自己演算法的需求選擇合適的向量實現類，如果演算法需要很多隨機訪問，應該選擇 DenseVector 或者 RandomAccessSparseVector，如果大部分都是順序訪問，SequentialAccessVector 的效果應該更好。

介紹了向量的實現，下面我們看看如何將現有的資料建模成向量，術語就是“如何對資料進行向量化”，以便採用 Mahout 的各種高效的聚類演算法。

簡單的整形或浮點型的資料
這種資料最簡單，只要將不同的域存在向量中即可，比如 n 維空間的點，其實本身可以被描述為一個向量。

列舉型別資料

這類資料是對物體的描述，只是取值範圍有限。舉個例子，假設你有一個蘋果資訊的資料集，每個蘋果的資料包括：大小，重量，顏色等，我們以顏色為例，設蘋果的顏色資料包括：紅色，黃色和綠色。在對資料進行建模時，我們可以用數字來表示顏色，紅色 =1，黃色 =2，綠色 =3，那麼大小直徑 8cm，重量 0.15kg，顏色是紅色的蘋果，建模的向量就是 <8, 0.15, 1>。

下面的清單 1 給出了對以上兩種資料進行向量化的例子。

清單 1. 建立簡單的向量

// 建立一個二維點集的向量組

public static final double[][] points = { { 1, 1 }, { 2, 1 }, { 1, 2 },

{ 2, 2 }, { 3, 3 }, { 8, 8 }, { 9, 8 }, { 8, 9 }, { 9, 9 }, { 5, 5 },

{ 5, 6 }, { 6, 6 }};

public static List<Vector> getPointVectors(double[][] raw) {

List<Vector> points = new ArrayList<Vector>();

for (int i = 0; i < raw.length; i++) {

double[] fr = raw[i];

// 這裡選擇建立 RandomAccessSparseVector

Vector vec = new RandomAccessSparseVector(fr.length);

// 將資料存放在建立的 Vector 中

vec.assign(fr);

points.add(vec);

}

return points;

}

// 建立蘋果資訊資料的向量組

public static List<Vector> generateAppleData() {

List<Vector> apples = new ArrayList<Vector>();

// 這裡建立的是 NamedVector，其實就是在上面幾種 Vector 的基礎上，

//為每個 Vector 提供一個可讀的名字

NamedVector apple = new NamedVector(new DenseVector(

new double[] {0.11, 510, 1}),

"Small round green apple");

apples.add(apple);

apple = new NamedVector(new DenseVector(new double[] {0.2, 650, 3}),

"Large oval red apple");

apples.add(apple);

apple = new NamedVector(new DenseVector(new double[] {0.09, 630, 1}),

"Small elongated red apple");

apples.add(apple);

apple = new NamedVector(new DenseVector(new double[] {0.25, 590, 3}),

"Large round yellow apple");

apples.add(apple);

apple = new NamedVector(new DenseVector(new double[] {0.18, 520, 2}),

"Medium oval green apple");

apples.add(apple);

return apples;

}

文字資訊

作為聚類演算法的主要應用場景 - 文字分類，對文字資訊的建模也是一個常見的問題。在資訊檢索研究領域已經有很好的建模方式，就是資訊檢索領域中最常用的向量空間模型 (Vector Space Model, VSM)。因為向量空間模型不是本文的重點，這裡給一個簡要的介紹，有興趣的朋友可以查閱參考目錄中給出的相關文件。

文字的向量空間模型就是將文字資訊建模為一個向量，其中每一個域是文字中出現的一個詞的權重。關於權重的計算則有很多中：

最簡單的莫過於直接計數，就是詞在文本里出現的次數。這種方法簡單，但是對文字內容描述的不夠精確。
詞的頻率 (Team Frequency, TF)：就是將詞在文字中出現的頻率作為詞的權重。這種方法只是對於直接計數進行了歸一化處理，目的是讓不同長度的文字模型有統一的取值空間，便於文字相似度的比較，但可以看出，簡單計數和詞頻都不能解決“高頻無意義詞彙權重大的問題”，也就是說對於英文文字中，“a”，“the”這樣高頻但無實際意義的詞彙並沒有進行過濾，這樣的文字模型在計算文字相似度時會很不準確。
詞頻 - 逆向文字頻率 (Term Frequency – Inverse Document Frequency, TF-IDF)：它是對 TF 方法的一種加強，字詞的重要性隨著它在檔案中出現的次數成正比增加，但同時會隨著它在所有文字中出現的頻率成反比下降。舉個例子，對於“高頻無意義詞彙”，因為它們大部分會出現在所有的文字中，所以它們的權重會大打折扣，這樣就使得文字模型在描述文字特徵上更加精確。在資訊檢索領域，TF-IDF 是對文字資訊建模的最常用的方法。

對於文字資訊的向量化，Mahout 已經提供了工具類，它基於 Lucene 給出了對文字資訊進行分析，然後建立文字向量。下面的清單 2 給出了一個例子，分析的文字資料是路透提供的新聞資料，參考資源裡給出了下載地址。將資料集下載後，放在“clustering/reuters”目錄下。

清單 2. 建立文字資訊的向量

public static void documentVectorize(String[] args) throws Exception{

//1. 將路透的資料解壓縮 , Mahout 提供了專門的方法

DocumentClustering.extractReuters();

//2. 將資料儲存成 SequenceFile，因為這些工具類就是在 Hadoop 的基礎上做的，所以首先我們需要將資料寫

// 成 SequenceFile，以便讀取和計算

DocumentClustering.transformToSequenceFile();

//3. 將 SequenceFile 檔案中的資料，基於 Lucene 的工具進行向量化

DocumentClustering.transformToVector();

}

public static void extractReuters(){

//ExtractReuters 是基於 Hadoop 的實現，所以需要將輸入輸出的檔案目錄傳給它，這裡我們可以直接把它映

// 射到我們本地的一個資料夾，解壓後的資料將寫入輸出目錄下

File inputFolder = new File("clustering/reuters");

File outputFolder = new File("clustering/reuters-extracted");

ExtractReuters extractor = new ExtractReuters(inputFolder, outputFolder);

extractor.extract();

}

public static void transformToSequenceFile(){

//SequenceFilesFromDirectory 實現將某個檔案目錄下的所有檔案寫入一個 SequenceFiles 的功能

// 它其實本身是一個工具類，可以直接用命令列呼叫，這裡直接呼叫了它的 main 方法

String[] args = {"-c", "UTF-8", "-i", "clustering/reuters-extracted/", "-o",

"clustering/reuters-seqfiles"};

// 解釋一下引數的意義：

// -c: 指定檔案的編碼形式，這裡用的是"UTF-8"

// -i: 指定輸入的檔案目錄，這裡指到我們剛剛匯出檔案的目錄

// -o: 指定輸出的檔案目錄

try {

SequenceFilesFromDirectory.main(args);

} catch (Exception e) {

e.printStackTrace();

}

public static void transformToVector(){

//SparseVectorsFromSequenceFiles 實現將 SequenceFiles 中的資料進行向量化。

// 它其實本身是一個工具類，可以直接用命令列呼叫，這裡直接呼叫了它的 main 方法

String[] args = {"-i", "clustering/reuters-seqfiles/", "-o",

"clustering/reuters-vectors-bigram", "-a",

"org.apache.lucene.analysis.WhitespaceAnalyzer"

, "-chunk", "200", "-wt", "tfidf", "-s", "5",

"-md", "3", "-x", "90", "-ng", "2", "-ml", "50", "-seq"};

// 解釋一下引數的意義：

// -i: 指定輸入的檔案目錄，這裡指到我們剛剛生成 SequenceFiles 的目錄

// -o: 指定輸出的檔案目錄

// -a: 指定使用的 Analyzer，這裡用的是 lucene 的空格分詞的 Analyzer

// -chunk: 指定 Chunk 的大小，單位是 M。對於大的檔案集合，我們不能一次 load 所有檔案，所以需要

// 對資料進行切塊

// -wt: 指定分析時採用的計算權重的模式，這裡選了 tfidf

// -s: 指定詞語在整個文字集合出現的最低頻度，低於這個頻度的詞彙將被丟掉

// -md: 指定詞語在多少不同的文字中出現的最低值，低於這個值的詞彙將被丟掉

// -x: 指定高頻詞彙和無意義詞彙（例如 is，a，the 等）的出現頻率上限，高於上限的將被丟掉

// -ng: 指定分詞後考慮詞彙的最大長度，例如 1-gram 就是，coca，cola，這是兩個詞，

// 2-gram 時，coca cola 是一個詞彙，2-gram 比 1-gram 在一定情況下分析的更準確。

// -ml: 指定判斷相鄰詞語是不是屬於一個詞彙的相似度閾值，當選擇 >1-gram 時才有用，其實計算的是

// Minimum Log Likelihood Ratio 的閾值

// -seq: 指定生成的向量是 SequentialAccessSparseVectors，沒設定時預設生成還是

// RandomAccessSparseVectors

try {

SparseVectorsFromSequenceFiles.main(args);

} catch (Exception e) {

e.printStackTrace();

}

這裡補充一點，生成的向量化檔案的目錄結構是這樣的：

圖 2 文字資訊向量化

df-count 目錄：儲存著文字的頻率資訊
tf-vectors 目錄：儲存著以 TF 作為權值的文字向量
tfidf-vectors 目錄：儲存著以 TFIDF 作為權值的文字向量
tokenized-documents 目錄：儲存著分詞過後的文字資訊
wordcount 目錄：儲存著全域性的詞彙出現的次數
dictionary.file-0 目錄：儲存著這些文字的詞彙表
frequcency-file-0 目錄 : 儲存著詞彙表對應的頻率資訊。

介紹完向量化問題，下面我們深入分析各個聚類演算法，首先介紹的是最經典的 K 均值演算法。

K 均值聚類演算法

K 均值是典型的基於距離的排他的劃分方法：給定一個 n 個物件的資料集，它可以構建資料的 k 個劃分，每個劃分就是一個聚類，並且 k<=n，同時還需要滿足兩個要求：

每個組至少包含一個物件
每個物件必須屬於且僅屬於一個組。

K 均值的基本原理是這樣的，給定 k，即要構建的劃分的數目，

首先建立一個初始劃分，隨機地選擇 k 個物件，每個物件初始地代表了一個簇中心。對於其他的物件，根據其與各個簇中心的距離，將它們賦給最近的簇。
然後採用一種迭代的重定位技術，嘗試通過物件在劃分間移動來改進劃分。所謂重定位技術，就是當有新的物件加入簇或者已有物件離開簇的時候，重新計算簇的平均值，然後對物件進行重新分配。這個過程不斷重複，直到沒有簇中物件的變化。

當結果簇是密集的，而且簇和簇之間的區別比較明顯時，K 均值的效果比較好。對於處理大資料集，這個演算法是相對可伸縮的和高效的，它的複雜度是 O(nkt)，n 是物件的個數，k 是簇的數目，t 是迭代的次數，通常 k<<n，且 t<<n，所以演算法經常以區域性最優結束。

K 均值的最大問題是要求使用者必須事先給出 k 的個數，k 的選擇一般都基於一些經驗值和多次實驗結果，對於不同的資料集，k 的取值沒有可借鑑性。另外，K 均值對“噪音”和孤立點資料是敏感的，少量這類的資料就能對平均值造成極大的影響。

說了這麼多理論的原理，下面我們基於 Mahout 實現一個簡單的 K 均值演算法的例子。如前面介紹的，Mahout 提供了基本的基於記憶體的實現和基於 Hadoop 的 Map/Reduce 的實現，分別是 KMeansClusterer 和 KMeansDriver，下面給出一個簡單的例子，就基於我們在清單 1 裡定義的二維點集資料。

清單 3. K 均值聚類演算法示例

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

// 基於記憶體的 K 均值聚類演算法實現

public static void kMeansClusterInMemoryKMeans(){

// 指定需要聚類的個數，這裡選擇 2 類

int k = 2;

// 指定 K 均值聚類演算法的最大迭代次數

int maxIter = 3;

// 指定 K 均值聚類演算法的最大距離閾值

double distanceThreshold = 0.01;

// 宣告一個計算距離的方法，這裡選擇了歐幾里德距離

DistanceMeasure measure = new EuclideanDistanceMeasure();

// 這裡構建向量集，使用的是清單 1 裡的二維點集

List<Vector> pointVectors = SimpleDataSet.getPointVectors(SimpleDataSet.points);

// 從點集向量中隨機的選擇 k 個作為簇的中心

List<Vector> randomPoints = RandomSeedGenerator.chooseRandomPoints(pointVectors, k);

// 基於前面選中的中心構建簇

List<Cluster> clusters = new ArrayList<Cluster>();

int clusterId = 0;

for(Vector v : randomPoints){

clusters.add(new Cluster(v, clusterId ++, measure));

}

// 呼叫 KMeansClusterer.clusterPoints 方法執行 K 均值聚類

List<List<Cluster>> finalClusters = KMeansClusterer.clusterPoints(pointVectors,

clusters, measure, maxIter, distanceThreshold);

// 列印最終的聚類結果

for(Cluster cluster : finalClusters.get(finalClusters.size() -1)){

System.out.println("Cluster id: " + cluster.getId() +

" center: " + cluster.getCenter().asFormatString());

System.out.println(" Points: " + cluster.getNumPoints());

}

// 基於 Hadoop 的 K 均值聚類演算法實現

public static void kMeansClusterUsingMapReduce () throws Exception{

// 宣告一個計算距離的方法，這裡選擇了歐幾里德距離

DistanceMeasure measure = new EuclideanDistanceMeasure();

// 指定輸入路徑，如前面介紹的一樣，基於 Hadoop 的實現就是通過指定輸入輸出的檔案路徑來指定資料來源的。

Path testpoints = new Path("testpoints");

Path output = new Path("output");

// 清空輸入輸出路徑下的資料

HadoopUtil.overwriteOutput(testpoints);

HadoopUtil.overwriteOutput(output);

RandomUtils.useTestSeed();

// 在輸入路徑下生成點集，與記憶體的方法不同，這裡需要把所有的向量寫進檔案，下面給出具體的例子

SimpleDataSet.writePointsToFile(testpoints);

// 指定需要聚類的個數，這裡選擇 2 類

int k = 2;

// 指定 K 均值聚類演算法的最大迭代次數

int maxIter = 3;

// 指定 K 均值聚類演算法的最大距離閾值

double distanceThreshold = 0.01;

// 隨機的選擇 k 個作為簇的中心

Path clusters = RandomSeedGenerator.buildRandom(testpoints,

new Path(output, "clusters-0"), k, measure);

// 呼叫 KMeansDriver.runJob 方法執行 K 均值聚類演算法

KMeansDriver.runJob(testpoints, clusters, output, measure,

distanceThreshold, maxIter, 1, true, true);

// 呼叫 ClusterDumper 的 printClusters 方法將聚類結果打印出來。

ClusterDumper clusterDumper = new ClusterDumper(new Path(output,

"clusters-" + maxIter -1), new Path(output, "clusteredPoints"));

clusterDumper.printClusters(null);

}

//SimpleDataSet 的 writePointsToFile 方法，將測試點集寫入檔案裡

// 首先我們將測試點集包裝成 VectorWritable 形式，從而將它們寫入檔案

public static List<VectorWritable> getPoints(double[][] raw) {

List<VectorWritable> points = new ArrayList<VectorWritable>();

for (int i = 0; i < raw.length; i++) {

double[] fr = raw[i];

Vector vec = new RandomAccessSparseVector(fr.length);

vec.assign(fr);

// 只是在加入點集前，在 RandomAccessSparseVector 外加了一層 VectorWritable 的包裝

points.add(new VectorWritable(vec));

}

return points;

}

// 將 VectorWritable 的點集寫入檔案，這裡涉及一些基本的 Hadoop 程式設計元素，詳細的請參閱參考資源裡相關的內容

public static void writePointsToFile(Path output) throws IOException {

// 呼叫前面的方法生成點集

List<VectorWritable> pointVectors = getPoints(points);

// 設定 Hadoop 的基本配置

Configuration conf = new Configuration();

// 生成 Hadoop 檔案系統物件 FileSystem

FileSystem fs = FileSystem.get(output.toUri(), conf);

// 生成一個 SequenceFile.Writer，它負責將 Vector 寫入檔案中

SequenceFile.Writer writer = new SequenceFile.Writer(fs, conf, output,

Text.class, VectorWritable.class);

// 這裡將向量按照文字形式寫入檔案

try {

for (VectorWritable vw : pointVectors) {

writer.append(new Text(), vw);

}

} finally {

writer.close();

}

執行結果

KMeans Clustering In Memory Result

Cluster id: 0

center:{"class":"org.apache.mahout.math.RandomAccessSparseVector",

"vector":"{\"values\":{\"table\":[0,1,0],\"values\":[1.8,1.8,0.0],\"state\":[1,1,0],

\"freeEntries\":1,\"distinct\":2,\"lowWaterMark\":0,\"highWaterMark\":1,

\"minLoadFactor\":0.2,\"maxLoadFactor\":0.5},\"size\":2,\"lengthSquared\":-1.0}"}

Points: 5

Cluster id: 1

center:{"class":"org.apache.mahout.math.RandomAccessSparseVector",

"vector":"{\"values\":{\"table\":[0,1,0],

\"values\":[7.142857142857143,7.285714285714286,0.0],\"state\":[1,1,0],

\"freeEntries\":1,\"distinct\":2,\"lowWaterMark\":0,\"highWaterMark\":1,

\"minLoadFactor\":0.2,\"maxLoadFactor\":0.5},\"size\":2,\"lengthSquared\":-1.0}"}

Points: 7

KMeans Clustering Using Map/Reduce Result

Weight: Point:

1.0: [1.000, 1.000]

1.0: [2.000, 1.000]

1.0: [1.000, 2.000]

1.0: [2.000, 2.000]

1.0: [3.000, 3.000]

Weight: Point:

1.0: [8.000, 8.000]

1.0: [9.000, 8.000]

1.0: [8.000, 9.000]

1.0: [9.000, 9.000]

1.0: [5.000, 5.000]

1.0: [5.000, 6.000]

1.0: [6.000, 6.000]

介紹完 K 均值聚類演算法，我們可以看出它最大的優點是：原理簡單，實現起來也相對簡單，同時執行效率和對於大資料量的可伸縮性還是較強的。然而缺點也是很明確的，首先它需要使用者在執行聚類之前就有明確的聚類個數的設定，這一點是使用者在處理大部分問題時都不太可能事先知道的，一般需要通過多次試驗找出一個最優的 K 值；其次就是，由於演算法在最開始採用隨機選擇初始聚類中心的方法，所以演算法對噪音和孤立點的容忍能力較差。所謂噪音就是待聚類物件中錯誤的資料，而孤立點是指與其他資料距離較遠，相似性較低的資料。對於 K 均值演算法，一旦孤立點和噪音在最開始被選作簇中心，對後面整個聚類過程將帶來很大的問題，那麼我們有什麼方法可以先快速找出應該選擇多少個簇，同時找到簇的中心，這樣可以大大優化 K 均值聚類演算法的效率，下面我們就介紹另一個聚類方法：Canopy 聚類演算法。

Canopy 聚類演算法

Canopy 聚類演算法的基本原則是：首先應用成本低的近似的距離計算方法高效的將資料分為多個組，這裡稱為一個 Canopy，我們姑且將它翻譯為“華蓋”，Canopy 之間可以有重疊的部分；然後採用嚴格的距離計算方式準確的計算在同一 Canopy 中的點，將他們分配與最合適的簇中。Canopy 聚類演算法經常用於 K 均值聚類演算法的預處理，用來找合適的 k 值和簇中心。

下面詳細介紹一下建立 Canopy 的過程：初始，假設我們有一組點集 S，並且預設了兩個距離閾值，T1，T2（T1>T2）；然後選擇一個點，計算它與 S 中其他點的距離（這裡採用成本很低的計算方法），將距離在 T1 以內的放入一個 Canopy 中，同時從 S 中去掉那些與此點距離在 T2 以內的點（這裡是為了保證和中心距離在 T2 以內的點不能再作為其他 Canopy 的中心），重複整個過程直到 S 為空為止。

對 K 均值的實現一樣，Mahout 也提供了兩個 Canopy 聚類的實現，下面我們就看看具體的程式碼例子。

清單 4. Canopy 聚類演算法示例

100

//Canopy 聚類演算法的記憶體實現

public static void canopyClusterInMemory () {

// 設定距離閾值 T1,T2

double T1 = 4.0;

double T2 = 3.0;

// 呼叫 CanopyClusterer.createCanopies 方法建立 Canopy，引數分別是：

// 1. 需要聚類的點集

// 2. 距離計算方法

// 3. 距離閾值 T1 和 T2

List<Canopy> canopies = CanopyClusterer.createCanopies(

SimpleDataSet.getPointVectors(SimpleDataSet.points),

new EuclideanDistanceMeasure(), T1, T2);

// 列印建立的 Canopy，因為聚類問題很簡單，所以這裡沒有進行下一步精確的聚類。

// 有必須的時候，可以拿到 Canopy 聚類的結果作為 K 均值聚類的輸入，能更精確更高效的解決聚類問題

for(Canopy canopy : canopies) {

System.out.println("Cluster id: " + canopy.getId() +

" center: " + canopy.getCenter().asFormatString());

System.out.println(" Points: " + canopy.getNumPoints());

}

//Canopy 聚類演算法的 Hadoop 實現

public static void canopyClusterUsingMapReduce() throws Exception{

// 設定距離閾值 T1,T2

double T1 = 4.0;

double T2 = 3.0;

// 宣告距離計算的方法

DistanceMeasure measure = new EuclideanDistanceMeasure();

// 設定輸入輸出的檔案路徑

Path testpoints = new Path("testpoints");

Path output = new Path("output");

// 清空輸入輸出路徑下的資料

HadoopUtil.overwriteOutput(testpoints);

HadoopUtil.overwriteOutput(output);

// 將測試點集寫入輸入目錄下

SimpleDataSet.writePointsToFile(testpoints);

// 呼叫 CanopyDriver.buildClusters 的方法執行 Canopy 聚類，引數是：

// 1. 輸入路徑，輸出路徑

// 2. 計算距離的方法

// 3. 距離閾值 T1 和 T2

new CanopyDriver().buildClusters(testpoints, output, measure, T1, T2, true);

// 列印 Canopy 聚類的結果

List<List<Cluster>> clustersM = DisplayClustering.loadClusters(output);

List<Cluster> clusters = clustersM.get(clustersM.size()-1);

if(clusters != null){

for(Cluster canopy : clusters) {

System.out.println("Cluster id: " + canopy.getId() +

" center: " + canopy.getCenter().asFormatString());

System.out.println(" Points: " + canopy.getNumPoints());

}

執行結果

Canopy Clustering In Memory Result

Cluster id: 0

center:{"class":"org.apache.mahout.math.RandomAccessSparseVector",

"vector":"{\"values\":{\"table\":[0,1,0],\"values\":[1.8,1.8,0.0],

\"state\":[1,1,0],\"freeEntries\":1,\"distinct\":2,\"lowWaterMark\":0,

\"highWaterMark\":1,\"minLoadFactor\":0.2,\"maxLoadFactor\":0.5},

\"size\":2,\"lengthSquared\":-1.0}"}

Points: 5

Cluster id: 1

center:{"class":"org.apache.mahout.math.RandomAccessSparseVector",

"vector":"{\"values\":{\"table\":[0,1,0],\"values\":[7.5,7.666666666666667,0.0],

\"state\":[1,1,0],\"freeEntries\":1,\"distinct\":2,\"lowWaterMark\":0,

\"highWaterMark\":1,\"minLoadFactor\":0.2,\"maxLoadFactor\":0.5},\"size\":2,

\"lengthSquared\":-1.0}"}

Points: 6

Cluster id: 2

center:{"class":"org.apache.mahout.math.RandomAccessSparseVector",

"vector":"{\"values\":{\"table\":[0,1,0],\"values\":[5.0,5.5,0.0],

\"state\":[1,1,0],\"freeEntries\":1,\"distinct\":2,\"lowWaterMark\":0,

\"highWaterMark\":1,\"minLoadFactor\":0.2,\"maxLoadFactor\":0.5},\"size\":2,

\"lengthSquared\":-1.0}"}

Points: 2

Canopy Clustering Using Map/Reduce Result

Cluster id: 0

center:{"class":"org.apache.mahout.math.RandomAccessSparseVector",

"vector":"{\"values\":{\"table\":[0,1,0],\"values\":[1.8,1.8,0.0],

\"state\":[1,1,0],\"freeEntries\":1,\"distinct\":2,\"lowWaterMark\":0,

\"highWaterMark\":1,\"minLoadFactor\":0.2,\"maxLoadFactor\":0.5},

\"size\":2,\"lengthSquared\":-1.0}"}

Points: 5

Cluster id: 1

center:{"class":"org.apache.mahout.math.RandomAccessSparseVector",

"vector":"{\"values\":{\"table\":[0,1,0],\"values\":[7.5,7.666666666666667,0.0],

\"state\":[1,1,0],\"freeEntries\":1,\"distinct\":2,\"lowWaterMark\":0,

\"highWaterMark\":1,\"minLoadFactor\":0.2,\"maxLoadFactor\":0.5},\"size\":2,

\"lengthSquared\":-1.0}"}

Points: 6

Cluster id: 2

center:{"class":"org.apache.mahout.math.RandomAccessSparseVector",

"vector":"{\"values\":{\"table\":[0,1,0],

\"values\":[5.333333333333333,5.666666666666667,0.0],\"state\":[1,1,0],

\"freeEntries\":1,\"distinct\":2,\"lowWaterMark\":0,\"highWaterMark\":1,

\"minLoadFactor\":0.2,\"maxLoadFactor\":0.5},\"size\":2,\"lengthSquared\":-1.0}"}

Points: 3

模糊 K 均值聚類演算法

模糊 K 均值聚類演算法是 K 均值聚類的擴充套件，它的基本原理和 K 均值一樣，只是它的聚類結果允許存在物件屬於多個簇，也就是說：它屬於我們前面介紹過的可重疊聚類演算法。為了深入理解模糊 K 均值和 K 均值的區別，這裡我們得花些時間瞭解一個概念：模糊引數（Fuzziness Factor）。

與 K 均值聚類原理類似，模糊 K 均值也是在待聚類物件向量集合上迴圈，但是它並不是將向量分配給距離最近的簇，而是計算向量與各個簇的相關性（Association）。假設有一個向量 v，有 k 個簇，v 到 k 個簇中心的距離分別是 d1，d2… dk，那麼 V 到第一個簇的相關性 u1可以通過下面的算式計算：

Figure xxx. Requires a heading

計算 v 到其他簇的相關性只需將 d1替換為對應的距離。

從上面的算式，我們看出，當 m 近似 2 時，相關性近似 1；當 m 近似 1 時，相關性近似於到該簇的距離，所以 m 的取值在（1，2）區間內，當 m 越大，模糊程度越大，m 就是我們剛剛提到的模糊引數。

講了這麼多理論的原理，下面我們看看如何使用 Mahout 實現模糊 K 均值聚類，同前面的方法一樣，Mahout 一樣提供了基於記憶體和基於 Hadoop Map/Reduce 的兩種實現 FuzzyKMeansClusterer 和 FuzzyMeansDriver，分別是清單 5 給出了一個例子。

清單 5. 模糊 K 均值聚類演算法示例

public static void fuzzyKMeansClusterInMemory() {

// 指定聚類的個數

int k = 2;

// 指定 K 均值聚類演算法的最大迭代次數

int maxIter = 3;

// 指定 K 均值聚類演算法的最大距離閾值

double distanceThreshold = 0.01;

// 指定模糊 K 均值聚類演算法的模糊引數

float fuzzificationFactor = 10;

// 宣告一個計算距離的方法，這裡選擇了歐幾里德距離

DistanceMeasure measure = new EuclideanDistanceMeasure();

// 構建向量集，使用的是清單 1 裡的二維點集

List<Vector> pointVectors = SimpleDataSet.getPointVectors(SimpleDataSet.points);

// 從點集向量中隨機的選擇 k 個作為簇的中心

List<Vector> randomPoints = RandomSeedGenerator.chooseRandomPoints(points, k);

// 構建初始簇，這裡與 K 均值不同，使用了 SoftCluster，表示簇是可重疊的

List<SoftCluster> clusters = new ArrayList<SoftCluster>();

int clusterId = 0;

for (Vector v : randomPoints) {

clusters.add(new SoftCluster(v, clusterId++, measure));

}

// 呼叫 FuzzyKMeansClusterer 的 clusterPoints 方法進行模糊 K 均值聚類

List<List<SoftCluster>> finalClusters =

FuzzyKMeansClusterer.clusterPoints(points,

clusters, measure, distanceThreshold, maxIter, fuzzificationFactor);

// 列印聚類結果

for(SoftCluster cluster : finalClusters.get(finalClusters.size() - 1)) {

System.out.println("Fuzzy Cluster id: " + cluster.getId() +

" center: " + cluster.getCenter().asFormatString());

}

public class fuzzyKMeansClusterUsingMapReduce {

// 指定模糊 K 均值聚類演算法的模糊引數

float fuzzificationFactor = 2.0f;

// 指定需要聚類的個數，這裡選擇 2 類

int k = 2;

// 指定最大迭代次數

int maxIter = 3;

// 指定最大距離閾值

double distanceThreshold = 0.01;

// 宣告一個計算距離的方法，這裡選擇了歐幾里德距離

DistanceMeasure measure = new EuclideanDistanceMeasure();

// 設定輸入輸出的檔案路徑

Path testpoints = new Path("testpoints");

Path output = new Path("output");

// 清空輸入輸出路徑下的資料

HadoopUtil.overwriteOutput(testpoints);

HadoopUtil.overwriteOutput(output);

// 將測試點集寫入輸入目錄下

SimpleDataSet.writePointsToFile(testpoints);

// 隨機的選擇 k 個作為簇的中心

Path clusters = RandomSeedGenerator.buildRandom(testpoints,

new Path(output, "clusters-0"), k, measure);

FuzzyKMeansDriver.runJob(testpoints, clusters, output, measure, 0.5, maxIter, 1,

fuzzificationFactor, true, true, distanceThreshold, true);

// 列印模糊 K 均值聚類的結果

ClusterDumper clusterDumper = new ClusterDumper(new Path(output, "clusters-" +

maxIter ),new Path(output, "clusteredPoints"));

clusterDumper.printClusters(null);

}

執


              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    深入推薦引擎相關演算法 - 聚類
       
 
 探索推薦引擎內部的祕密，第 3 部分 
 深入推薦引擎相關演算法 - 聚類 
 趙 晨婷 和 馬 春娥 2011 年 3 月 24 日釋出 
 WeiboGoogle+用電子郵件傳送本頁面 
  
   
 10 
 系列內容： 
 此內容是該系列 3 部分中的第&nb 

  
 

    

    
    機器學習演算法--聚類
       
 
 常見的無監督學習型別：聚類任務  密度估計  異常檢測 
 聚類演算法試圖將樣本分成k個不想交的子集，每個子集稱為一個簇，對應一些潛在的概念。 
 樣本集x={x1, x2....xm} 每個樣本Xi={xi1,xi2...xin}對應n個特徵 
 劃分為K個不同的類別C={C1 

  
 

    

    
    使用K-means演算法聚類灰度圖
       
 
 
 github資料集: 智慧演算法的課件和參考資料以及實驗程式碼 
 我們可以用k-means演算法將灰度圖分成N個梯度 
 我們知道，一般的彩色影象指的是在RGB顏色空間下的影象，這樣的影象三個通道分別是R（red）G（green）B（blue）。而灰度圖指的是單通道的，將三通道的影象 

  
 

    

    
    K-means 和 K-medoids演算法聚類分析
      
                
 1    聚類是對物理的或者抽象的物件集合分組的過程，聚類生成的組稱為簇，而簇是資料物件的集合。
        （1）簇內部的任意兩個物件之間具有較高的相似度。（2）屬於不同的簇的兩個物件間具有較高的相異度。
 2    相異度可以根據描述物件的屬性值來計算，最常用的度 

  
 

    

    
    非監督學習—K-means演算法聚類學習筆記
      
                非監督學習： 無類別標記的

一、 K-means 演算法：

1. Clustering 中的經典演算法，資料探勘十大經典演算法之一

2. 引數k

已知引數 k ；然後將事先輸入的n個數據物件劃分為 k個聚類以便使得所獲得的聚類滿足：同一聚類中的物件相似度較高；而不同聚 

  
 

    

    
    Python之使用K-Means演算法聚類消費行為特徵資料分析（異常點檢測）
      
                源資料（這裡僅展示10行）：程式：#-*- coding: utf-8 -*-
#使用K-Means演算法聚類消費行為特徵資料

import numpy as np
import pandas as pd

#引數初始化
inputfile = '../data/consu 

  
 

    

    
    ML之Clustering之普聚類演算法：普聚類演算法的相關論文、主要思路、關鍵步驟、程式碼實現等相關配圖之詳細攻略
       
 
 
 ML之Clustering之普聚類演算法：普聚類演算法的相關論文、主要思路、關鍵步驟、程式碼實現等相關配圖之詳細攻略 
   
 普聚類演算法的相關論文 
 1、論文推薦 
 
  Clustering by fast search and find of density peak.  

  
 

    

    
    基於譜聚類SM演算法的協同過濾推薦演算法研究——清華師兄畢業論文學習
       
 
 一、個性化推薦演算法 
 1.相似度的比較 
 兩個商品或者商品之間相似的的計算方法，量化屬性為非數值型資料的商品或者使用者之間的接近程度。通常我們計算使用者或者專案間相似度的主要方法有餘弦相似度（Cosime Similarity）、Jaccard係數和pearson相關(pearson Corr 

  
 

    

    
    深入理解K-Means聚類演算法
      
							
							
							概述

什麼是聚類分析

聚類分析是在資料中發現數據物件之間的關係，將資料進行分組，組內的相似性越大，組間的差別越大，則聚類效果越好。



不同的簇型別

聚類旨在發現有用的物件簇，在現實中我們用到很多的簇的型別，使用不同的簇型別劃分資料的結果是不同的，如下的 

  
 

    

    
    聚類演算法推薦：一種元學習的方法
      
                
摘要：元學習是一種技術，其目的在於理解什麼型別的演算法解決什麼型別的問題。相比之下，聚類是基於物件的相似性把一個數據集劃分幾個簇，不需要物件類標籤的先驗知識。本文提出了基於無標籤物件特徵的提取，使用元學習推薦出聚類演算法。基於將要被計算的聚類問題的特徵以及不同聚類演算法的排 

  
 

    

    
    聚類及相關演算法二（原型聚類、密度聚類、層次聚類）
      
							
							
							原型聚類

描述：對原型進行初始化，然後對原型進行迭代更新求解。



1.k均值演算法

給定樣本集D={x1,x2,...,xm}，D={x1,x2,...,xm}，“k-均值”(k-means)演算法針對聚類所得簇劃分C={C1,C2,C3,...,Ck} 

  
 

    

    
    聚類算法相關
      密度   最大   location   混合高斯模型   高斯   mean   思想   聚類算法   oca   Bisecting KMeans
Bisecting KMeans算法的主要思想是：首先將所有點作為一個簇，然後將該簇一分為二，之後選擇能最大限度降低聚類代價函數（也就是誤差平方和）的簇劃分 

  
 

    

    
    深入理解Java虛擬機（類文件結構+類加載機制+字節碼執行引擎）
      本地變量   ber   關鍵字   作者   看書   講解   個數   寫入   class類   周誌明的《深入理解Java虛擬機》很好很強大，閱讀起來頗有點費勁，尤其是當你跟隨作者的思路一直探究下去，開始會讓你弄不清方向，難免有些你說的啥子的感覺。但知識不得不學，於是天天看，反復看，就慢慢的理解了。 

  
 

    

    
    【神經網路】自編碼聚類演算法--DEC (Deep Embedded Clustering)
      1.演算法描述 
     最近在做AutoEncoder的一些探索，看到2016年的一篇論文，雖然不是最新的，但是思路和方法值得學習。論文原文連結 http://proceedings.mlr.press/v48/xieb16.pdf，論文有感於t-SNE演算法的t- 

  
 

    

    
    第八次作業--聚類--K均值演算法：自主實現與sklearn.cluster.KMeans呼叫
       
 import numpy as np
x = np.random.randint(1,100,[20,1])
y = np.zeros(20)
k = 3
x 
 
 
 
 def initcenter(x, k):#初始聚類中心陣列
    return x[:k]

kc = initcenter 

  
 

    

    
    聚類演算法之DBSCAN演算法之二：高維資料剪枝應用NQ-DBSCAN
       
  
  
 一、經典DBSCAN的不足 
 1.由於“維度災難”問題，應用高維資料效果不佳 2.執行時間在尋找每個點的最近鄰和密度計算，複雜度是O(n2)。當d>=3時，由於BCP等數學問題出現，時間複雜度會急劇上升到Ω（n的四分之三次方）。 
 二、DBSCAN在高維資料的改進 
 目前的研究有 

  
 

    

    
    聚類演算法之DBSCAN演算法之一：經典DBSCAN
       
  
  
 DBSCAN是基於密度空間的聚類演算法，與KMeans演算法不同，它不需要確定聚類的數量，而是基於資料推測聚類的數目，它能夠針對任意形狀產生聚類。 
 1.epsilon-neighborhood 
 epsoiln-neighborhood(簡稱e-nbhd）可理解為密度空間，表示半徑為e 

  
 

    

    
    機器學習——K-means演算法（聚類演算法）
       
  
  
 聚類 
 在說K-means聚類演算法之前必須要先理解聚類和分類的區別。 
 分類其實是從特定的資料中挖掘模式，作出判斷的過程。比如Gmail郵箱裡有垃圾郵件分類器，一開始的時候可能什麼都不過濾，在日常使用過程中，我人工對於每一封郵件點選“垃圾”或“不是垃圾”，過一段時間，Gmail就體現出 

  
 

    

    
    聚類演算法（1）
       
 
 一聚類演算法簡介 
 1.聚類和分類的區別 
 聚類 - 利用演算法將相似或者相近的樣本聚成一簇，這些樣本都是無標籤的，是一種無監督學習演算法。 
 分類 - 首先需要從有標籤樣本學習出打標籤邏輯，再利用學習出的邏輯對無標籤樣本進行分類，是一種有監督學習演算法。 
  
 2.聚類的使用 
 聚類演 

  
 

    

    
    機器學習筆記之（7）——聚類演算法
       
 
 
 對於監督學習，訓練資料都是事先已知預測結果的，即訓練資料中已提供了資料的類標。無監督學習則是在事先不知道正確結果（即無類標資訊或預期輸出值）的情況下，發現數據本身所蘊含的結構等資訊。
 無監督學習通過對無標記訓練樣本的學習來尋找這些資料的內在性質。
 聚類的目標是發現數據中自然形成的分組，使得每


        
      
    
    
  
    搜尋
    
        
      
      
    
  
 
  
  
    基礎教學
     
    Mysql入門  
     Sql入門 
      Android入門 
       Docker入門 
        Go語言入門 
         Ruby程式入門 
          Python入門 
           Python進階 
            Django入門 
             Python爬蟲入門 
             
      
      
  
   
  
    最近訪問
    
  	      
  
      
    
  

 

 


  
    
      
        
          首頁
前端設計
程式設計
免費資源
實用技巧
資料庫
資訊
字典
        
          Copyright © 2002-2020  程式人生 796T.COM All rights reserved.