聚類評估演算法-輪廓係數(Silhouette Coefficient )
阿新 • • 發佈:2019-01-10
輪廓係數(Silhouette Coefficient),是聚類效果好壞的一種評價方式。最早由 Peter J. Rousseeuw 在 1986 提出。它結合內聚度和分離度兩種因素。可以用來在相同原始資料的基礎上用來評價不同演算法、或者演算法不同執行方式對聚類結果所產生的影響。
方法:
1,計算樣本i到同簇其他樣本的平均距離ai。ai 越小,說明樣本i越應該被聚類到該簇。將ai 稱為樣本i的簇內不相似度。
簇C中所有樣本的a i 均值稱為簇C的簇不相似度。
2,計算樣本i到其他某簇Cj 的所有樣本的平均距離bij,稱為樣本i與簇Cj 的不相似度。定義為樣本i的簇間不相似度
bi越大,說明樣本i越不屬於其他簇。
3,根據樣本i的簇內不相似度a i 和簇間不相似度b i ,定義樣本i的輪廓係數:
4,判斷:
si接近1,則說明樣本i聚類合理;
si接近-1,則說明樣本i更應該分類到另外的簇;
若si 近似為0,則說明樣本i在兩個簇的邊界上。
所有樣本的s i 的均值稱為聚類結果的輪廓係數,是該聚類是否合理、有效的度量。