1. 程式人生 > 其它 >聚類案例分析全流程彙總

聚類案例分析全流程彙總

一、案例說明

1.案例背景

研究調查10名運動員的3項測試資料,其中三項分別是:肩寬/髖寬×100、胸厚/胸圍×100、腿長/身長×100。其中編號為4、6、8、9的4名運動員分別是蛙、自由、仰、蝶泳四種姿勢的佼佼者。預計姿勢按姿勢分為蝶泳、仰泳、蛙泳、自由泳4類(為簡化問題僅以10名運動員的3項測試資料為例)。

2.分析目的

本案例對游泳運動員調查的資料進行聚類,以便分項,預計姿勢按姿勢分為蝶泳、仰泳、蛙泳、自由泳4類。 [案例來源於:SPSS統計分析(第5版)盧紋岱,硃紅兵主編,案例有一些變動 具體請看分析。]

二、資料處理

1.資料檢查

在資料分析之前,首先需要進行資料檢視,包括資料中是否有異常值,無效樣本等。如果有異常值則需要進行處理,然後再進行分析。另外如果資料中有無效樣本也需要進行處理後再進行分析。無效樣本會干擾分析研究,扭曲資料結論等,因而在分析前先對無效樣本進行標識顯示尤其必要。異常值的鑑別與處理一般分為三個部分,其中分別是判斷標準,鑑別方法以及異常值的處理,以下從這三個方面進行說明。

異常值的判斷標準如下:

檢驗資料是否有異常值的方法:

異常值處理方法:

此案例對於異常值參照的標準為大於±3個標準差

使用箱線圖進行檢視發現沒有異常值。

除了對異常值的處理,還需要對於無效樣本進行檢查:如果資料來源為問卷,則很可能出現無效樣本,因為填寫問卷的樣本是否真實填寫無從判定;如果資料庫下載或者使用二手資料等,也可能出現大量缺失資料等無效樣本。以下從無效樣本場景、SPSSAU設定標準、處理三方面進行說明。

1.常見場景

2.設定標準

3.無效樣本的處理

設定好無效樣本後,預設會新生成一個標題,用來標識那些樣本是有效,那些是無效,在分析的時候直接進行篩選下就好。

本次案例分析將以相同數字大於70%為標準進行檢驗,結果顯示沒有無效樣本。

 

2.標題處理

將變數肩寬/髖寬×100設為x1、變數胸厚/胸圍×100設為x2、變數腿長/身長×100設為x3。

三、操作

首先對初始計劃進行分析得到模型如下:

分析結果來源於SPSSAU

從上表可以看出:最終聚類得到4類群體, 4類人群分佈較為均勻,整體說明聚類效果較好。如果分析人員沒有預設聚類個數也可以利用該方法對資料類別進行初步判斷,若該案例資料聚類個數為3,結果如下:

從結果來看,若分為三類,資料中第三個類別佔比較多,不如分為4類的結果均勻,綜合結果對比聚類個數選擇4,但是就此案例說明,若研究者的預設聚類個數為3,也是可以接受的。

總結來講,不需要對模型進行調整,重複進行案例模型的構建。

聚類分析往往是一個主觀判斷的過程,需要根據分析結果及個人專業知識判斷,聚為幾類更合適。這裡結合SPSSAU輸出結果,提供幾個判斷聚類效果的方法:

分析結果來源於SPSSAU

接下來將對此一一說明。

四、結果輸出及分析

首先要檢視資料分佈是否均勻,一般來說,每個類別的樣本比例應分佈均勻,如果出現某一類佔比過大或過小,可以考慮重新設定聚類類別個數。

1.聚類基本情況

分析結果來源於SPSSAU

使用聚類分析對樣本進行分類,使用Kmeans聚類分析方法,從上表可以看出:最終聚類得到4類群體,此4類群體的佔比分別是20.00%, 20.00%, 30.00%, 30.00%。整體來看, 4類人群分佈較為均勻,整體說明聚類效果較好。

2.方差分析

分析結果來源於SPSSAU

聚類類別與聚類分析項進行交叉分析,如果呈現出顯著性(p<0.05),意味著聚類得到的不同類別樣本,在相同指標上有明顯的差異。這說明參與聚類分析的3個變數能夠很好的區分類別,類間差異足夠大,其中p值越小說明明類別之間的差異越大,表中顯示自變數x2的類別之間差異性最大。

對不同類別進行均值比較除了可以檢視方差分析還可以進行檢視聚類項重要性對比。

分析結果來源於SPSSAU

如果某個指標重要性較低,考慮移出該指標。從上述結果看,所有研究項均呈現出顯著性,說明不同類別之間的特徵有明顯的區別,聚類的效果較好。

3.聚類效果的圖示化

可通過散點圖直觀展示聚類效果,使用任意兩個聚類指標進行散點圖繪製(視覺化模組裡面的散點圖),並且在‘顏色區分(定類)[可選]框中放入‘聚類類別’項,以檢視不同類別時,兩兩指標的散點效果。

分析結果來源於SPSSAU

從圖中可以發現各個類別之間有明顯的區別,聚類的效果較好。其中發現第一個類別x1、x3都比較大,建議研究時可以更加關注。

4.聚類類別實際意義

根據編號為4、6、8、9的4名運動員分別是蛙、自由、仰、蝶泳四種姿勢的佼佼者。

可以將第一類命名為蛙泳,第二類命名為自由泳,第三類命名為仰泳,第四類命名為蝶泳。

研究者也可以觀察折線圖趨勢進行命名。參考如下:

分析結果來源於SPSSAU

五、其它

1.聚類中心

整體說明聚類效果較好

分析結果來源於SPSSAU

上表為經過迭代後類中心的變化,資料是經過標準化後的,至於資料是否需要標準化,聚類演算法是根據距離進行判斷類別,因此一般需要在聚類之前進行標準化處理,SPSSAU預設是選中進行標準化處理。資料標準化之後,資料的相對大小意義還在(比如數字越大GDP越高),但是實際意義消失了。

2.SSE

對於聚類中心的SSE指標說明如下:

在進行Kmeans聚類分析時SPSSAU預設輸出誤差平方和SSE值,該值可用於測量各點與中心點的距離情況,理論上是希望越小越好,而且如果同樣的資料,聚類類別越多則SSE值會越小(但聚類類別過多則不便於分析)。SSE指標可用於輔助判斷聚類類別個數,建議在不同聚類類別數量情況下記錄下SSE值,然後分析SSE值的減少幅度情況,如果發現比如從3個聚類到4個類別時SSE值減少幅度明顯很大,那麼此時選擇4個聚類類別較好。比如該案例若聚類數為3,此時SSE值為7.451,但是當聚類數為4時此時SSE值為2.844,發現SSE減少幅度較大。所以可以看出選擇4個聚類類別較好。

六、總結

對案例資料首先進行資料的檢查,沒有發現缺失值與異常值,針對聚類的基本情況分析,發現數據可以進行聚類,以及對聚類類別的選擇,最後對於輸出的結果進行分析,得到結論。如果有定類資料,或使用分層聚類方法分析,分析思路也是如此。