1. 程式人生 > 其它 >資料分析進階 - 霍普金斯統計量預估聚類趨勢

資料分析進階 - 霍普金斯統計量預估聚類趨勢

技術標籤:資料分析

霍普金斯統計量原理

在給資料集做聚類之前,我們需要事先評估資料集的聚類趨勢,要求資料是非均勻分佈,均勻分佈的資料集沒有聚類的意義。

霍普金斯統計量是一種空間統計量,用於檢驗空間分佈的變數的空間隨機性,從而判斷資料是否可以聚類。

計算步驟:

  • 均勻地從D的空間中抽取n個點p1,p2,…pn,對每個點pi(1≤i≤n),找出pi在D中的最近鄰,並令xi為pi與它在D中的最近鄰之間的距離,即
    在這裡插入圖片描述

  • 均勻地從D的空間中抽取n個點q1,q2,…qn,對每個點qi(1≤i≤n),找出qi在D-{qi}中的最近鄰,並令yi為qi與它在D-{qi}中的最近鄰之間的距離,即
    在這裡插入圖片描述

  • 計算霍普金斯統計量H

    在這裡插入圖片描述

如果樣本接近隨機分佈,H的值接近於0.5;如果聚類趨勢明顯,則隨機生成的樣本點距離應該遠大於實際樣本點的距離,即H的值接近於1
在這裡插入圖片描述
具體可見:https://www.datanovia.com/en/lessons/assessing-clustering-tendency/#statistical-methods

Python實現
from sklearn.neighbors import NearestNeighbors
from random import sample
import numpy as np
import pandas as pd
from numpy.random imort uniform

def hopkins_statistic(x):
	d = x.shape[1]
	n = len(x)
	m = int(0.1*n)
	nbrs = NearestNeighbors(n_neighbors=1).fit(x.values)
	rand_x = sample(range(0,n),m)
	ujd = []
	wjd = []
	for j in range(0,m):
		u_dist, _ = nbrs.kneighbors(uniform(np.min(x,axis=0), np.max(x, axis=0), d).reshape(1,-1), 2 , return_distince=True)
		ujd.append(u_dist[0][1])
		w_dist, _ = nbrs.kneighbors(x.iloc[rand_x[j]].values.reshape(1, -1), 2, return_distince=True)
		wjd.append(w_dist[0][1])
	h = sum(ujd)/(sum(ujd)+sum(wjd))
	if isnan(h):
		print(ujd, wjd)
		h = 0
	return h