1. 程式人生 > >高階聚類分析

高階聚類分析

原文:https://blog.csdn.net/fjssharpsword/article/details/79291001

高階聚類分析


基於概率模型的聚類

研究一個物件屬於多個簇的聚類主題。

模糊簇

模糊集S是整體物件集X的一個子集,允許X中的每個物件都具有一個屬於S的0到1之間的隸屬度。給定物件的集合,一個簇就是物件的一個模糊集,這種簇就是模糊簇,一個聚類包含多個模糊簇。模糊聚類就是劃分模糊簇的過程。物件隸屬於模糊簇的隸屬度,可以用物件與其被指派到的簇的中心之間的距離或相似度來衡量。由於一個物件可能參與多個簇,用隸屬度加權的到簇中心的距離之和捕獲物件擬合聚類的程度。誤差平方和SSE可用來度量模糊聚類對資料集的擬合程度。模糊聚類也稱為軟聚類,允許一個物件屬於多個簇,和傳統的硬聚類強制每個物件互斥地僅屬於一個簇不同。

基於概率模型的聚類

聚類分析的目標是發現隱藏的類別。作為聚類分析主題的資料集可以看做隱藏的類別的可能例項的一個樣本,但沒有類標號。由聚類分析匯出的簇使用資料集推斷,並且旨在逼近隱藏的類別。

從統計學上,可以假定隱藏的類別是資料空間上的一個分佈,可以使用概率密度函式或分佈函式精確地表示。這種隱藏的類別稱為概率簇。對於一個概率簇C,它的密度函式和資料空間的點o,f(o)C的一個例項在o上出現的相對似然。假定概率粗符合某種分佈,用資料集(觀測的資料)來學習到這種分佈,捕獲潛在的類別。存在多個概率簇,也就是說觀測的物件集是由這些概率簇所生成的資料。給定資料集D和所要求的的簇數k,基於概率模型的聚類分析任務是推匯出最有可能產生D

的k個概率簇。

資料生成的過程,每個觀測物件都獨立地有兩步生成:首先,根據簇的概率選擇一個概率簇;然後根據選定簇的概率密度函式選擇一個樣本。

基於概率模型的聚類最終就歸結為求k個簇的概率密度函式的引數。如假定是高斯分佈,則要求出均值和方差。

期望最大化演算法

模糊聚類和基於概率模型的聚類都是通過EM演算法來實現。EM演算法是一種框架,逼近統計模型引數的最大似然或最大後驗估計。在模糊或基於概率模型的聚類情況下,EM演算法從初始引數集出發,並且迭代直到不能改善聚類,即直到聚類收斂或改變充分小。

模糊聚類或基於概率模型的聚類的EM步驟:

  • 第一:期望步,根據當前的模糊聚類或概率簇的引數,把物件指派到簇中;

  • 第二:最大化步,發現新的聚類或引數,最大化模糊聚類的SSE或基於概率模型的聚類的期望似然。

總結:基於概率模型的聚類,使用合適的統計模型以捕獲潛在的簇。EM演算法可能收斂不到最優解,而且可能收斂於區域性極大,避免區域性極大的啟發式方法,包括使用不同的隨機初始值,執行EM過程多次。對於分佈很多或資料集只包含很少觀測資料點,則EM演算法的計算開銷可能很大。


聚類高維資料

在高維空間中,傳統的距離度量可能被一些維上的噪聲所左右。和傳統的低維空間聚類不同,隱藏在高維空間中的簇通常非常小,如何為高維資料聚類建立一個合適的模型是主要出發點。

子空間聚類方法

子空間搜尋方法為聚類搜尋各種子空間。這裡,簇是在子空間中彼此相似的物件的子集。相似性用傳統的方法度量,如距離或密度。

基於相關性的聚類方法,如使用PCA匯出新的、不相關的維集合,然後在新的空間或它的子空間中挖掘簇。除PCA外,還可以使用Hough變換或分形維,都是空間變換技術。

雙聚類方法

雙聚類方法在基因表達和推薦系統中有應用。雙聚類是同時聚類物件和屬性,結果簇是雙簇,滿足:只有一個小物件集參與一個簇、一個簇只涉及少數屬性、一個物件可以參與多個簇或完全不參與任何簇、一個屬性可以被多個簇涉及或完全不被任何簇涉及。在含噪聲的資料中發現雙簇的方法主要有兩類:基於最優化的方法執行迭代搜尋,在每個迭代中,具有最高顯著性得分的子矩陣被識別為雙簇,這一個過程在使用者指定的條件滿足時終止,考慮到計算開銷,通常使用貪心搜尋,找到區域性最優的雙簇,代表性演算法是 δ δ -簇;列舉方法使用一個容忍閾值指定被挖掘的雙簇對噪聲的容忍度,並試圖列舉所有滿足要求的雙簇的子矩陣,代表性演算法是MaPle

維歸約方法和譜聚類

聚類高維資料的維歸約方法是構造一個新的空間,而不是使用原資料空間的子空間。

譜聚類方法就是這種思想,對資料生成相似矩陣,在進行特徵值分解,選擇前k個特徵向量,然後在新空間聚類,之後投影回原資料。


聚類圖和網路資料

在圖和網路資料上的聚類分析提取有價值的知識和資訊。圖和網路資料,如偶圖、web搜尋引擎、社會網路等,值給出了物件(頂點)和它們之間的聯絡(邊),沒有明確定義維和屬性,要在這上面進行聚類分析,存在相似性度量和有效聚類模型設計的量大挑戰。

相似性度量採用測地距和基於隨機遊走的距離。

  • 測地距:圖中兩個頂點之間距離的一種簡單度量是兩個頂點之間的最短路徑,兩個頂點之間的測地距就是兩個頂點之間最短路徑的邊數。

  • SimRank,基於隨機遊走和結構情境的相似性,隨機遊走是一個軌跡,由相繼的隨機步組成。基於結構情境的相似性的直觀意義是,圖中兩個頂點是相似的,如果它們與相似的頂點相連結。

圖聚類就是切割圖成若干片,每片就是一個簇,使得簇內的頂點很好地互連,而不同的頂點以很弱的方式連線。割是圖G的頂點V的一個劃分,割的割集是邊的集合,割的大小是割集的邊數,對於加權圖,割的大小是割集的邊的加權和。圖聚類問題就歸結為尋找最好的割,作為簇來分類。如何在圖中找最好的割,如最稀疏的割,存在挑戰,如高計算開銷、複雜的圖、高維性、稀疏性。圖聚類的方法,一類是使用聚類高維資料的方法,如譜聚類;另一類是專門用於圖的方法,如SCAN,搜尋圖,找出良連通的成分作為簇。


具有約束的聚類

聚類分析涉及三個基本方面:作為簇例項的物件、作為物件群的簇、物件之間的相似性。約束有三類:例項上的約束、簇上的約束、相似性度量上的約束。

  • 例項上的約束包括:必須聯絡約束和不能聯絡約束。
  • 簇上的約束使用簇的睡醒,說明對簇的要求。
  • 相似性度量上的約束說明相似性計算必須遵守的要求。
  • 具有約束的聚類方法,包括處理硬性約束和處理軟性約束兩種。
  • 處理硬性約束的策略是,在聚類的指派過程中,嚴格遵守約束。

具有軟性約束的聚類是一個優化問題。當聚類違反軟性約束時,在聚類上施加一個罰。聚類的最優化目標包含兩部分:優化聚類質量和最小化違反約束的罰,總體目標函式是聚類質量得分和罰得分的組合。


小結

  • 傳統聚類分析中,物件被互斥地指派到一個簇中,然後在很多應用中,需以模糊或概率方式把一個物件指派到一個或多個簇中。模糊聚類和基於概率模型的聚類允許一個物件屬於一個或多個簇。劃分矩陣記錄物件屬於簇的隸屬度。

  • 基於概率模型的聚類假定每個簇是一個有參分佈。使用待聚類的資料作為觀測樣本,可以估計簇的引數。

  • 混合模型假定觀測物件是來自多個概率簇的例項的混合。從概念上講,每個觀測物件都是通過如下方法獨立地產生的:首先根據簇概率選擇一個概率簇,然後根據選定簇的概率密度函式選擇一個樣本。

  • 期望最大化EM演算法是一個框架,它逼近最大似然或統計模型引數的後驗概率估計。EM演算法可以用來計算模糊聚類和基於概率模型的聚類。

  • 高維資料對聚類分析提出了挑戰,包括如何對高維簇建模和如何搜尋這樣的簇。

  • 高維資料聚類方法主要有兩類:子空間聚類方法和維歸約方法。子空間聚類方法在原空間的子空間中搜索簇。例子包括子空間搜尋方法、基於相關性的聚類方法和雙聚類方法。維歸約方法建立較低維的新空間,並在新空間搜尋簇。

  • 雙聚類方法同時聚類物件和屬性。雙簇的型別包括具有常數值、行/列常數值、想幹值、行/列想幹演變值的雙簇。雙聚類方法的兩種主要型別是基於最優化的方法和列舉方法。

  • 譜聚類是一種維歸約方法。其一般思想是使用相似矩陣構建新維。

  • 聚類圖和網路資料有很多應用,如社會網路分析。挑戰包括如何度量圖中物件之間的相似性和如何為圖和網路資料設計聚類方法。

  • 測地距是圖中兩個頂點之間的邊數,可以用來度量相似性。社會網路這樣的圖的相似性可以用結構情境和隨機遊走度量。SimRank是基於結構情境和隨機遊走的相似性度量。

  • 圖聚類可以建模為計算圖割。最稀疏的割導致好的聚類,而模組性可以用來度量聚類質量。

  • SCAN是一種圖聚類演算法,它搜尋圖,識別良連通的成分作為簇。

  • 約束可以用來表達具體應用丟聚類分析的要求或背景知識。聚類約束可以分為例項、簇和相似性度量上的約束。例項上的約束可以是必須聯絡約束和不能聯絡約束。約束可以是硬性的或軟性的。

  • 聚類的硬性約束可以通過在聚類指派過程嚴格遵守約束而強制實施。軟性約束聚類是一個優化問題,可以使用啟發式方法加快約束聚類的速度。

原文:https://blog.csdn.net/fjssharpsword/article/details/79291001