【資料探勘筆記十】聚類分析:基本概念和方法
1)
10.聚類分析:基本概念和方法
聚類是一個把資料物件集劃分成多個組或簇的過程,使得簇內的物件具有很高的相似性,但與其他簇中的物件很不相似。相異性和相似性根據描述物件的屬性值評估,涉及到距離度量。
10.1 聚類分析
聚類分析把一個數據物件(或觀測)劃分子集的過程。由聚類分析產生的簇的集合稱做一個聚類。聚類分析用來洞察資料的分析,觀察每個簇的特徵,將進一步分析集中在特定的簇集合上。聚類分析也可作為其他演算法如特徵化、屬性子集選擇和分類的預處理步驟。聚類也看用於離群點檢測。聚類是無監督學習。
資料探勘對聚類的要求:可伸縮性、處理不同屬性型別的能力、發現任意形狀的簇、對於確定輸入引數的領域知識的要求、處理噪聲資料的能力、增量聚類和對輸入次序不敏感、聚類高維資料的能力、基於約束的聚類、可解釋性和可用性。比較聚類方法的有劃分準則、簇的分離性、相似性度量、聚類空間。
聚類方法的特點:
1)劃分方法(原型方法):發現球形互斥的簇、基於距離、可以用均值或中心點等代表簇中心、對中小規模資料集有效;
2)層次方法:聚類是一個層次分解(多層)、不能糾正錯誤的合併或劃分、可以整合其他技術如微聚類或考慮物件連線;
3)密度方法:可以發現任意形狀的簇、簇是物件空間中被低密度區域分隔的稠密區域、簇密度每個點的鄰域內必須具有最少個數的點、可能過濾離群點;
4)網格方法:使用一種多解析度網格資料結構、快速處理(典型地,獨立於資料物件數,但依賴於網格大小)。
10.2 劃分方法
劃分方法把資料物件組織成k個分割槽,每個分割槽代表一個簇。同一簇中的物件是相似的,而不同簇中的物件是相異的。
K-均值一種基於形心的技術,對離群點敏感。k-中心點一種基於代表物件的技術,在存在噪聲和離群點下更魯棒性。
10.3 層次方法
層次聚類方法將資料物件組成層次結構或簇的樹。層次聚類方法分類為凝聚的和分裂的,取決於層次分解是自底向上合併的還是自頂向下的分裂方式形成。
凝聚層次聚類使用自底向上策略。令每個物件形成自己的簇開始,並且迭代地把簇合併成越來越大的簇,直到所有的物件都在一個簇中,或者滿足某個終止的條件。該單個簇成為層次結構的根。在合併步驟中,它找出兩個最接近的簇(根據某種相似性度量),並且合併它們,形成一個簇。因為每次迭代合併兩個簇,其中每個簇至少包含一個物件,因此凝聚方法最多需要n次迭代。
分類層次聚類使用自頂向下策略。從把所有物件置於一個簇中,該簇是層次結構的根。然後,把根上的簇劃分成多個較小的子簇,並且遞迴地把這些簇劃分成更小的簇。劃分過程繼續,直到最底層的簇都足夠凝聚-或者僅包含一個物件,或者簇內的物件彼此都充分相似。
凝聚方法和分裂方法的核心問題都是度量兩個簇之間的距離。
採用最小距離的稱為最近鄰聚類演算法。當最近的兩個簇之間的距離超過使用者給定的閾值時聚類過程就終止,稱為單連線演算法。使用最小距離度量的凝聚層次聚類也稱為最小生成樹演算法。
使用最大距離的稱為最遠鄰聚類演算法。如果當最近的兩個簇之間的最大距離超過使用者給定的閾值時聚類過程終止,稱為全連線演算法。
最小和最大距離代表了簇間距離度量的兩個極端,趨向對離群點或噪聲資料過分敏感。使用均值距離或平均距離是對最小和最大距離之間的一種折中方法,並且可以克服離群點敏感性問題。
利用層次結構的平衡迭代歸約和聚類是為大量數值資料聚類設計的,將層次聚類和其他聚類方法整合一起,克服了凝聚聚類所面臨的可伸縮性和不可撤銷先前步驟工作的困難。BIRCH(使用聚類特徵樹的多階段聚類)使用聚類特徵來概括一個簇,使用聚類特徵樹(CF-樹)來表示聚類的層次結構。簇的聚類特徵CF是一個3維向量,彙總了物件簇的資訊,是給定簇的統計彙總。使用聚類特徵可以避免儲存個體物件或點的詳細資訊。CF樹是一顆高度平衡的樹,儲存了層次聚類的聚類特徵。支援增量聚類。
Chameleon(變色龍)使用動態建模的多階段層次聚類,採用動態建模來確定一對簇之間的相似度。簇的相似度依據兩點評估:簇中物件的連線情況、簇的鄰近性。如果兩個簇的互連性很高並且它們之間靠得很近則將其合併,不用依賴於靜態的、使用者提供的模型,能夠自動適應被合併簇的內部特徵。這一合併過程有利於發現自然、同構的簇,並且只要定義了相似度函式就可應用於所有型別的資料。過程是先依據k近鄰構建稀疏圖,在分割邊割最小的子簇,最後用層次聚類的凝聚子簇。
層次聚類存在三個缺點:1)距離度量選擇是困難的;2)不能很好解決有缺失的屬性值;3)層次聚類方法是啟發式的,在每一步中區域性地搜尋好的合併或劃分。概率層次聚類通過使用概率模型度量簇之間的距離,克服這些缺點。概率層次聚類把待聚類的資料物件看做要分析的基礎資料生成機制的一個樣本,或生成模型,這樣聚類的任務是使用待聚類的觀測資料,儘可能準確地估計生成模型。可以假定資料的生成模型採用常見的分佈函式,如高斯分佈或伯努利分佈,由引數確定,學習生成模型的任務歸結為找出使得模型最佳擬合觀測資料集的引數值。概率層次聚類只輸出一個關於選取的概率模型的層次結構,不能處理聚類層次結構的不確定性,但給定一個數據集,可能存在多個擬合觀測資料的層次結構。
10.4 基於密度的方法
劃分方法和層次方法都是發現球形簇,不能發現其他形狀的簇。要能發現任意形狀的簇,可以把簇看做資料空間中被稀疏區域分開的稠密區域,這就是基於密度的聚類方法的主要策略,可以發現非球狀的簇。
DBSCAN,具有噪聲應用的基於密度的空間聚類,找出核心物件,即其鄰域稠密的物件,連線核心物件及其鄰域,形成稠密區域作為簇。構建過程有鄰域半徑引數和核心物件鄰域內要求的最少點數兩個引數控制。這兩個引數設定靠經驗。
OPTICS,通過點排序識別聚類結構,不顯式地產生資料集聚類,而是輸出簇排序,排序是所有分析物件的線性表,並且代表了資料的基於密度的聚類結構。較稠密簇中的物件在簇排序中相互靠近,排序等價於從廣泛的引數設定中得到的基於密度的聚類。需要兩個重要資訊,核心距離和可達距離。
DENCLUE,一種基於一組密度分佈函式的聚類演算法。密度估計是根據一系列觀測資料集來估計不可觀測的概率密度函式。在基於密度聚類的背景下,不可觀測的概率密度函式是待分析的所有可能的物件的總體的真實分佈。觀測資料集被看做取自該總體的一個隨機樣本。核密度估計,非引數密度估計方法,把每個觀測物件都看做是周圍區域中高概率密度的一個指示器,一個點上的概率密度依賴於從該點到觀測物件的距離。一個簇是一個密度吸引點的集合X和一個輸入物件的集合C,使得C中的每個物件都被分配到X中的一個密度吸引點,並且每對密度吸引點之間都存在一條其密度大於閾值的路徑。
10.5 基於網格的方法
基於網格的聚類,是空間驅動的方法,把嵌入空間劃分成獨立於輸入物件分佈的單元。基於網格的聚類方法使用一種多解析度的網格資料結構,將物件空間量化成有限數目的單元,形成網格結構,所有的聚類操作在該結構上進行。這種方法處理速度快,處理時間獨立於資料物件數,而僅依賴於量化空間中每一維上的單元數。
STING,統計資訊網格,基於網格的多解析度的聚類技術,將輸入物件的空間區域劃分成矩形單元。空間可以用分層和遞迴方法進行劃分。這種多層矩形單元對應不同級別的解析度,並且形成一個層次結構:每個高層單元被劃分為多個第一層單元。關於每個網格單元的屬性的統計資訊,如均值、最大值、最小值,被作為統計引數預先計算和儲存。
CLIQUE,一種類似於Apriori的子空間聚類方法,用於發現子空間中基於密度的簇。CLIQUE把每個維劃分成不重疊的區間,從而把資料物件的整個嵌入空間劃分成單元,使用一個密度閾值識別稠密單元和稀疏單元,一個單元是稠密的,如果對映到它的物件數超過該密度閾值。CLIQUE識別候選搜尋空間的主要策略是使用稠密單元關於維度的單調性,這基於頻繁模式和關聯規則挖掘使用的先驗性質。
10.6 聚類評估
聚類評估的主要任務包括估計聚類趨勢、確定資料集中的簇數、測定聚類質量。
聚類趨勢評估確定給定的資料集是否具有可以導致有意義的聚類的非隨機結構。霍普金斯統計量是一種空間統計量,檢驗空間分佈的變數的空間的隨機性。該評估通過霍普金斯統計量來檢驗資料分佈是否均勻。
合適的簇數可以控制適當的聚類分析粒度,也是在聚類分析的可壓縮性和準確性之間尋找好的平衡點。確定合適的簇數依賴於資料集分佈的形狀和尺度,也依賴於使用者要求的聚類解析度。估計簇的方法有肘方法,增加簇數有助於降低每個簇的簇內方差之和,因為更多的簇可以捕獲更細的資料物件簇,簇中物件之間更為相似。不過,如果形成太多的簇,則降低簇內的方差和的邊緣效應可能下降,把一個凝聚的簇分裂成兩個只引起簇內方差和的稍微降低,因此選擇正確的簇數的啟發式方法是使用簇內方差和關於簇數的曲線的拐點。
測定聚類質量有外在方法(監督方法)和內在方法(無監督方法)。
1)外在方法:有簇的同質性、簇的完全性、碎布袋、小簇保持性四項標準來評估聚類質量度量Q是有效的。BCubed精度和召回率滿足滿足這四個標準,根據基準,對給定資料集上聚類中的每個物件估計精度和召回率。一個物件的精度指示同一簇中有多少個其他物件與該物件同屬一個類別。一個物件的召回率反映有多少同一類別的物件別分配在相同的簇中。
2)內在方法:在沒有資料集的基準可用時,使用內在方法評估聚類的質量,通過考察簇的分離情況和簇的緊湊情況來評估聚類。利用資料集物件之間的相似性度量。輪廓係數就是這種度量。
10.7 小結
1)簇是資料物件的集合,同一個簇中的物件彼此相似,而不同簇中的物件彼此相異。將物理或抽象物件的集合劃分為相似物件的類的過程是聚類。
2)聚類分析具有廣泛的應用,包括商務智慧、影象模式識別、Web搜尋、生物學和安全。聚類分析可以作為獨立的資料探勘工具來獲得對資料分佈的瞭解,也可以作為在檢測的簇上執行的其他資料探勘演算法的預處理步驟。
3)聚類是資料探勘研究一個富有活力的領域,與機器學習的無監督學習有關。
4)聚類的要求包括可伸縮性、處理不同型別的資料和屬性的能力、發現任意形狀的簇、確定輸入引數的最小領域知識需求、處理噪聲資料的能力、增量聚類和對輸入次序的不敏感性、聚類高維資料的能力、基於約束的聚類,以及聚類的可解釋性和可用性。
5)聚類方法根據劃分標準、簇的分離性、所所用的相似性度量和聚類空間有:劃分方法、層次方法、基於密度的方法和基於網格的方法。
6)劃分方法首先建立k個分割槽的初始集合,其中引數k是要構建的分割槽數。然後,採用迭代重定位技術,試圖通過把物件從一個簇移到另一個簇來改進劃分的質量。典型的劃分方法包括k-均值、k-中心點、CLARANS。
7)層次方法建立給定資料物件集的層次分解。根據層次分解的形成方式,層次方法可以分為凝聚的(自底向上)和分裂的(自頂向下)。為彌補合併或分裂的僵硬性,凝聚的層次方法的聚類質量可通過以下方法改進:分析每個層次劃分中的物件連線(如Chameleon),或者首先執行微聚類(把資料劃分為微簇),然後使用其他的聚類技術,迭代重定位,在微簇上聚類(如BIRCH)。
8)基於密度的方法基於密度的概念來聚類物件。它或者根據鄰域中物件的密度(如DBSCAN),或者根據某種密度函式(如DENCLUE)來生成簇。OPTICS是一個基於密度的方法,它生成資料聚類結構的一個增廣序。
9)基於網格的方法首先將物件空間量化為有限數目的單元,形成網格結構,然後在網格結構上進行聚類。STING是基於網格方法的一個例子,基於儲存在網格單元中的統計資訊聚類。CLIQUE是基於網格的子空間聚類演算法。
10)聚類評估估計在資料集上進行聚類分析的可行性和由聚類方法產生的結果的質量。任務包括評估聚類趨勢、確定簇數和測定聚類的質量。
相關推薦
【資料探勘筆記十】聚類分析:基本概念和方法
1)10.聚類分析:基本概念和方法聚類是一個把資料物件集劃分成多個組或簇的過程,使得簇內的物件具有很高的相似性,但與其他簇中的物件很不相似。相異性和相似性根據描述物件的屬性值評估,涉及到距離度量。10.1 聚類分析聚類分析把一個數據物件(或觀測)劃分子集的過程。由聚類分析產生
八 聚類分析:基本概念和演算法1
8.1 概述 8.1.1 什麼是聚類分析 聚類分析是根據在資料中發現的描述物件及其關係,將資料物件分組。 聚類分析目標是組內的物件互相之間是相似的,而不同組中的物件是不同的。 聚類與分類:聚類分析可以理解為非監督分類 8.1.2 不同的聚類型別 層次的與劃分的:
【資料探勘筆記十二】離群點檢測
12.離群點檢測離群點檢測或異常檢測,是找出其行為很不同於預期物件的過程。這種物件稱為離群點或異常。離群點檢測和聚類分析是兩項高度相關的任務。聚類發現數據集中的多數模式並據此組織資料,而離群點檢測則試圖捕獲顯著偏離多數模式的異常情況。12.1 離群點和離群點分析離群點顯著不同
【資料探勘筆記六】挖掘頻繁模式、關聯和相關性:基本概念和方法
6.挖掘頻繁模式、關聯和相關性:基本概念和方法 頻繁模式(frequent pattern)是頻繁地出現在資料集中的模式。 6.1 基本概念 頻繁模式挖掘搜尋給定資料集中反覆出現的聯絡,旨在發現大型事務或關係資料集中項之間有趣的關聯或相關性,其典型例子就是購物籃分析。 購物
【資料探勘筆記二】認識資料
2.認識資料 提出一些問題來開啟資料的認識。資料由什麼型別的屬性或欄位組成?每個屬性具有何種型別的資料值?那些屬性是離散的,那些事連續值的?資料值如何分佈?什麼方法更好地視覺化資料可看出離群點?如何度量資料物件之間的相似性或相異性? 2.1資料物件與屬性型別 資料集是由資
【資料探勘概念與技術】學習筆記6-挖掘頻繁模式、關聯和相關性:基本概念和方法(編緝中)
頻繁模式是頻繁地出現在資料集中的模式(如項集、子序列或子結構)。頻繁模式挖掘給定資料集中反覆出現的聯絡。“購物籃”例子,想象全域是商店中商品的集合,每種商品有一個布林變數,表示該商品是否出現。則每個購物籃可以用一個布林向量表示。分析布林向量,得到反映商品頻繁關聯或同時購買的購買模式。這些模式可用關聯規則來表示
【資料探勘面經】騰訊+百度+華為(均拿到sp offer)
《資料探勘——從入門到求職》by ZakeXuPS:文中所涉及資料可從以下連結獲取(包括簡歷模版)最近秋招也已經慢慢接近尾聲了,從去年8月底開始,先後參加了datacastle,阿里天池,牛客網各自舉辦的資料探勘比賽(都是top10),今年4月份又先後去百度,騰訊實習,到現在
【資料探勘知識點七】相關與迴歸分析
相關與迴歸分析客觀現象之間的數量聯絡存在兩種不同型別:一種是函式關係,另一種是相關關係。當一個或幾個變數取一定的值時,另一個變數有確定值與之對應,這種關係稱為確定性的函式關係,一般把作為影響因素的變數稱為自變數,把發生對應變化的變數稱為因變數。當一個或幾個相互聯絡的變數取一定
【資料探勘面經】騰訊+百度+華為(均拿到sp offer)--轉
最近秋招也已經慢慢接近尾聲了,從去年 8 月底開始,先後參加了 datacastle ,阿里天池,牛客網各自舉辦的資料探勘比賽(都是 top10 ),今年 4 月份又先後去百度,騰訊實習,到現在秋招快結束,也將近
【資料探勘案例實踐】Loan Status
一、LoanStatus案例介紹 資料集變數: 預測變數: Loan_Status貸款是否成功 評價指標: Cross_validation Score (ROC曲線–AUC得分) 資料集大小 訓練集樣本數:614 測試集樣本數:367
【資料探勘學習筆記】10.頻繁模式挖掘基礎
一、基本概念頻繁模式– 頻繁的出現在資料集中的模式– 項集、子序或者子結構動機– 發現數據中蘊含的事物的內在規律• 項(Item) – 最小的處理單位 – 例如:Bread, Milk• 事務(Transaction) – 由事務號和項集組成 – 例如:<1, {Bre
【資料探勘學習筆記】11.頻繁模式挖掘進階與關聯規則
一、關聯規則關聯規則步驟:– 1、找個這個“同一項集”,相同的項集對應的規則有相同的支援度,找到支援度≥minsup的項集– 2、計算項集中所有規則的置信度,找到置信度≥minconf的規則由頻繁項集生成關聯規則生成關聯規則– 給定頻繁項集L,找出L的所有非空子集f,滿足f
python資料探勘筆記】十八.線性迴歸及多項式迴歸分析四個案例分享
python資料探勘課程】十八.線性迴歸及多項式迴歸分析四個案例分享 #2018-03-30 18:24:56 March Friday the 13 week, the 089 day SZ SSMR 1.線性迴歸預測Pizza價格案例 2.線性迴歸分析波士頓房
【資料探勘】【筆記】資料預處理之類別特徵編碼
定義 類別特徵:如['male', 'female']等,模型不能直接識別的資料。處理的目的是將不能夠定量處理的變數量化。 特別的比如星期[1, 2, ... , 7]雖然是數字,但是數值之間沒有大小順序關係,需要視為類別特徵。 處理 編碼為模型可識
【資料探勘】FPgrowth演算法筆記
1. 提出問題 對於Apriror演算法來說,仍然受到兩種非平凡開銷的影響: 仍然需要產生大量的候選集。例如,如果有10^4個頻繁1項集,則需要產生10^7個候選頻繁2項集。 可能需要重複地掃描整個資料庫。檢索資料庫中每個事務來確定候選項集支援度的開銷會很
【機器學習】資料探勘演算法——關聯規則(一),相關概念,評價指標
綜述: 資料探勘是指以某種方式分析資料來源,從中發現一些潛在的有用的資訊,所以資料探勘又稱作知識發現,而關聯規則挖掘則是資料探勘中的一個很重要的課題,顧名思義,它是從資料背後發現事物之間可能存在的關聯或者聯絡。 關聯規則的目的在於在一個數據集中找出項之間的關
資料探勘筆記-聚類-Canopy-並行處理分析
Canopy並行化處理在Mahout裡面有很好的實現,網上有很多人都做過相關的分析,有的寫的很詳細,本來只想看看Mahout Canopy原始碼就好了,但還是覺得自己記錄下也好。我看的是mahout-
【資料探勘】分類之kNN
1.演算法簡介 kNN的思想很簡單:計算待分類的資料點與訓練集所有樣本點,取距離最近的k個樣本;統計這k個樣本的類別數量;根據多數表決方案,取數量最多的那一類作為待測樣本的類別。距離度量可採用Euclidean distance,Manhattan distance和co
【資料探勘】Apriori演算法
關聯分析:在大資料中尋找有趣的關係,包括頻繁項集或者關聯規則。頻繁項集是指經常一起出現的物品的集合,關聯關係暗示兩種物品之間可能存在很強的關係。這種關聯分析有什麼用呢?根據常識,經常一起出現的可能有某種關係,比如商品A和商品B在同一個頻繁項集裡,那麼可能說明購買商品A的人會選擇購買商品B,或者反
資料探勘筆記-聚類-KMeans-原理與簡單實現
K中心點演算法(K-medoids)提出了新的質點選取方式,而不是簡單像k-means演算法採用均值計演算法。在K中心點演算法中,每次迭代後的質點都是從聚類的樣本點中選取,而選取的標準就是當該樣本點成為新的質點後能提高類簇的聚類質量,使得類簇更緊湊。該演算法使用絕對誤差標準來定義一個類簇的緊湊程度。 如果