1. 程式人生 > >聚類評估演算法-輪廓係數(Silhouette Coefficient )

聚類評估演算法-輪廓係數(Silhouette Coefficient )

輪廓係數(Silhouette Coefficient),是聚類效果好壞的一種評價方式。最早由 Peter J. Rousseeuw 在 1986 提出。它結合內聚度和分離度兩種因素。可以用來在相同原始資料的基礎上用來評價不同演算法、或者演算法不同執行方式對聚類結果所產生的影響。

         方法:

                  1,計算樣本i到同簇其他樣本的平均距離ai。ai 越小,說明樣本i越應該被聚類到該簇。將ai 稱為樣本i的簇內不相似度

                            簇C中所有樣本的a i 均值稱為簇C的簇不相似度。

                  2,計算樣本i到其他某簇Cj 的所有樣本的平均距離bij,稱為樣本i與簇Cj 的不相似度。定義為樣本i的簇間不相似度

:bi =min{bi1, bi2, ..., bik}

                            bi越大,說明樣本i越不屬於其他簇。

                   3,根據樣本i的簇內不相似度a i 和簇間不相似度b i ,定義樣本i的輪廓係數

                   4,判斷:

                            si接近1,則說明樣本i聚類合理;

                            si接近-1,則說明樣本i更應該分類到另外的簇;

                            若si 近似為0,則說明樣本i在兩個簇的邊界上。

         所有樣本的s i 的均值稱為聚類結果的輪廓係數,是該聚類是否合理、有效的度量。