1. 程式人生 > >聚類之效能度量詳解

聚類之效能度量詳解

概念簡述

聚類是什麼呢?我們都聽說過“物以類聚”,即把“志同道合”的 資料分到一起歸為一類,不同類之間在”志向“上具有較大分歧。舉個栗子,茫茫人生中,我們普通大眾會被God根據緣分進行聚類,緣分好的話,會成為朋友,甚至成為了可以互訴衷腸,”餘生請指教“的男女盤友,那緣分不好的應該是一生從未謀面或者一面之緣或者是如《再見前任3》中那樣成為了最熟悉的陌生人…好像扯遠了。
言歸正傳,用標準的普通話來說,聚類是將資料集中的樣本劃分為若干個通常是不相交的子集,每個子整合為一個“”,用正規的外星人語言來說,對於樣本D={x1,x2,...,xm}包含m個無標記樣本,每個樣本

xi={xi1;xi2;...;xin}是一個n維特徵向量,則聚類演算法將樣本集D劃分為k個不相交的簇{Cl|l=1,2,...,k},其中ClllCl=D=l=1kCl,相應地,用λj{1,2,...,k}表示樣本xj的“簇標記”,即xjCλj。於是聚類的結果可用包含m個元素的簇標記,記向量λ=(λ1;λ2;...;λm)。舉個栗子,對於具有10個樣本的資料集D,其中每個樣本xi含有2維特徵,分成2類的結果如下:
這裡寫圖片描述
聚類通常用來對無標記訓練樣本的學習來揭示資料內在性質及規律,為進一步的資料分析提供基礎,是“無監督學習”中應用最廣的研究方法。那麼問題來了,如何衡量聚類結果的好壞呢?按照什麼樣的“緣分”分類呢?官方的話來說聚類有哪些效能度量以及距離計算方法。

效能度量

我們通常按照一個標準來分析聚類之後的結果,簡單來說這個標準是“簇內相似度高,簇間相似度低”,下面我們用一堆“指數”,“係數”來數學化引號裡面的內容,權當填補那些好奇心強盛的孩紙們…

效能度量分類:

聚類效能度量的主要分為兩類,一類是將聚類結果與某個“參考模型”進行比較,成為“外部指標”;另一類是直接考察聚類結果而不用任何參考模型,成為“內部指標”。

  1. 外部指標

“外部指標”通常有Jaccard係數(Jaccard Coefficient,簡稱JC)、FM係數(Fowlkes and Mallows Index,簡稱FMI)、Rand指數(Rand Index,簡稱RI)。

  • JC:
    (1.1)JC=aa+b+c
  • FMI:
    (1.2)FMI=aa+baa+c
  • RI
    (1.3)RI=2(a+d))m(m1)
    假設,資料集

    相關推薦

    效能度量

    概念簡述 聚類是什麼呢?我們都聽說過“物以類聚”,即把“志同道合”的 資料分到一起歸為一類,不同類之間在”志向“上具有較大分歧。舉個栗子,茫茫人生中,我們普通大眾會被God根據緣分進行聚類,緣分好的話,會成為朋友,甚至成為了可以互訴衷腸,”餘生請指教“的男女盤

    k-means演算法

    前言 俗話說:“物以類聚,人以群分”,在自然科學和社會科學中,存在著大量的分類問題。所謂類,通俗地說,就是指相似元素的集合。 而對於分類問題,我們通常不會提供x與y這樣的對映關係,對於這種用機器自動找出其中規律並進行分類的問題,我們稱為聚類。 聚類在實際的

    機器學習———效能度量指標與距離度量計算

    聚類,是無監督學習的代表,將資料集D劃分成了若干個不相交的子集,稱為簇,我們總體的目標是“簇間相似性越低越好,簇內相似性越高越好”。 1.效能度量指標——外部指標 外部指標:聚類結果與某個“參考模型”進行比較。 對資料集,假設通過聚類劃分為,參考模型的劃分為:,令和分別

    效能度量

    聚類的效能是很難度量,因為它是從資料中學習,並歸類。資料的特性的多方面的,那麼歸類的結果也會是多種。比如蘋果,可以從顏色(紅、綠)也可以從形狀(圓的、橢圓的)歸類,沒有一定的形式。 但是我們還是試圖找到一些方法來評價聚類演算法的效能。主要分為外部指標和內部指標

    FCM演算法原理及應用

    【之前】 該文的pdf清晰版已被整理上傳,方便儲存學習,下載地址: (一)原理部分 模糊C均值(Fuzzy C-means)演算法簡稱FCM演算法,是一種基於目標函式的模糊聚類演算法,主要用於資料的聚類分析。理論成熟,應用廣泛,是一種優秀的聚類演算法。本

    React Native屬性型檢查機制 PropType 變成 prop-types

    word man div color object platform UC 靜態 ESS 屬性確認的作用 使用 React Native 創建的組件是可以復用的,所以我們開發的組件可能會給項目組其他同事使用。但別人可能對這個組件不熟悉,常常會忘記使用某些屬性,或者某些屬性傳

    爬蟲刃----趕集網招聘爬取案例(系列四)

    前言 本篇承襲之前的系列文章,開始動真格。以趕集網招聘類資訊爬取為例,詳細解說爬蟲程式構建過程。 準備工作: 閱讀之前的系列一、系列二、系列三,有一定遞進關係 登陸趕集網,瞭解下“地形” OK,let’s go! 構建URL庫

    Web效能壓力測試Webbench使用

    Webbench是知名的網站壓力測試工具,它是由Lionbridge公司(http://www.lionbridge.com)開發。Webbench能測試處在相同硬體上,不同服務的效能以及不同硬體上同一個服務的執行狀況。webbench的標準測試可以向我們展示伺服器的兩項內容:每秒鐘相應請求數和每秒鐘傳輸資料

    Java陣列查詢Arrays的binarySearch()方法

    Arrays類的binarySearch()方法,可以使用二分搜尋法來搜尋指定的陣列,以獲得指定物件。該方法返回要搜尋元素的索引值。binarySearch()方法提供多種過載形式,用於滿足各種型別陣

    linux awk命令

    數學函數 mat loop 多次 finished 數組結構 save pre 新的 awk是一種程序語言,對文檔資料的處理具有很強的功能。awk名稱是由它三個最初設計者的姓氏的第一個字母而命名的: Alfred V. Aho、Peter J. We i n b e rg

    運維自動化Saltstack使用

    自動化運維 saltstack 概要saltstack是基於Python開發的C/S架構的一款批量管理工具,底層采用動態的連接總線(ZeroMQ消息隊列pub/sub方式通信),使用ssl證書簽發的方式進行認證管理,使其可以用於編配, 遠程執行, 配置管理等等。部署輕松,在幾分鐘內可運行起來,擴展性好

    Spark-SqlDataFrame實戰

    集合 case 編程方式 優化 所表 register 操作數 print ava 1、DataFrame簡介: 在Spark中,DataFrame是一種以RDD為基礎的分布式數據據集,類似於傳統數據庫聽二維表格,DataFrame帶有Schema元信息,即DataFram

    Java--父的引用指向子的對象

    show 小明 一個 oid void get color system eight 例:   第一步.創建一個Person類 package com.maya.ball; public class Person { private int age; p

    四、python函數

    list global pan line ice see war -s span 一、函數 1.說白了就是把一組代碼合到一起,可以實現某種功能,需要再用到這種功能的話,直接調用這個函數就行2.函數、方法是一回事3.定義一個函數的格式是:def+函數名+()4.函數必須調用了

    UML圖與的關系--轉

    position 好的 -a erp 生命 靜態 pan 雙向 單選 http://www.uml.org.cn/oobject/201104212.asp 原文地址 UML類圖與類的關系詳解 2011-04-21 來源:網絡

    MySQLSELECT 語句

    限制 right ont 定義 過程 lar load avg sel 本文參考實驗樓的SELECT 語句詳解結合自己操作部分而寫成。 註意:大多數系統中,SQL語句都是不區分大小寫的,但是出於嚴謹和便於區分保留字和變量名,在書寫的時,保留字應大寫,而變量名應小寫。所謂的保

    UML圖與的關系

    enc pla 分享 包含關系 影響 基礎 rem 建模 基本組件 UML類圖與類的關系詳解 在畫類圖的時候,理清類和類之間的關系是重點。類的關系有泛化(Generalization)、實現(Realizati

    spring AOP解析註解方式

    parser 分享 pro asp mes aop log space spec 命名空間處理器是AopNamespaceHandler,我們可以看到這裏註冊了幾個解析器,第一個我們知道是xml形式的解析,接下來我們看AspectJAutoProxyBeanDefiniti

    JVM加載機制(一)JVM加載過程

    進行 虛擬機啟動 類加載的時機 bsp 參與 tro ext 環境 java代碼 首先Throws(拋出)幾個自己學習過程中一直疑惑的問題: 1、什麽是類加載?什麽時候進行類加載? 2、什麽是類初始化?什麽時候進行類初始化? 3、什麽時候會為變量分配內存? 4、什麽時候會為

    Java加載機制

    package itl prot 啟動 bool ddc 發現 很多 har 一、類加載器 類加載器(ClassLoader),顧名思義,即加載類的東西。在我們使用一個類之前,JVM需要先將該類的字節碼文件(.class文件)從磁盤、網絡或其他來源加載到內存中,並對字節碼進