1. 程式人生 > >潛類別模型(Latent Class Modeling)

潛類別模型(Latent Class Modeling)

困難 pac 內部 示意圖 alt profile 判斷 img data

1.潛類別模型概述

潛在類別模型(Latent Class Model, LCM; Lazarsfeld & Henry, 1968)或潛在類別分析(Latent Class Analysis, LCA)是通過間斷的潛變量即潛在類別(Class)變量來解釋外顯指標間的關聯,使外顯指標間的關聯通過潛在類別變量來估計,進而維持其局部獨立性的統計方法(見圖1-1)。其基本假設是,外顯變量各種反應的概率分布可以由少數互斥的潛在類別變量來解釋,每種類別對各外顯變量的反應選擇都有特定的傾向(邱皓政,2008; Collins, & Lanza, 2010)。與潛在類別分析非常相似的是潛在剖面分析(Latent Profile Analysis, LPA),區別在於前者處理分類變量,後者分析連續變量。

技術分享
圖1-1 LCM示意圖

LCM是根據個體在外顯指標上的反應模式即不同的聯合概率來進行參數估計的統計方法。例如,一份數學測驗有10個判斷題,數學能力高的個體可能全部正確的回答所有題目,能力低的學生只能正確回答容易的題目,能力中等的學生可能回答全部容易和部分困難的題目。不同能力水平的學生在正確回答不同難易水平的題目時表現出某種相似性,因此通過學生回答題目的情況可以將其分為不同的能力水平組。LCM分析邏輯的就是根據個體在外顯項目上的反應模式將其分類。

1.1數學表達式

1)潛類別分析模型

可以從方差分析的角度理解LCM。方差分析的特點是將方差分解成不同的來源,常見的有組間vs.組內和被試間vs.被試內。在LCM中,可以將方差分解為類別內和類別間(Sterba, 2013)。

根據局部獨立性(local independence)假設,類別內的任意兩個觀測指標間的關聯已通過潛類別變量解釋,所以它們之間已沒有關聯。根據獨立事件聯合發生的概率等於單獨發生概率之積的原理,在每個類別內部,多個兩點計分項目的聯合概率可以表示為:

技術分享

上式中, 表示個體i在指標j的兩個選項y=1或y=0的得分。下標j表示2點計分的指標,c為潛類別變量,有k個水平。

同時考慮多個類別水平時,上式擴展為:

技術分享

表示某一類別組k所占總體的比率,亦稱潛類別概率。

2)潛剖面分析模型

當觀測指標為連續型變量時,LCM稱作潛在剖面分析(Latent Profile Modeling, LPM)。此時,將連續指標的方差分解為類別/剖面間和類別/剖面內方差(Lazarsfeld & Henry, 1968):

技術分享

其中 和 為剖面k內指標i的均值和方差。 為類別概率,即每個類別個體占全體的比例。當滿足局部獨立性和同質假設時,上式簡化為:

技術分享

1.2 類別概率和條件概率

在LCM中,有兩個非常重要的參數:潛類別概率和條件概率(Conditional Probability)。潛在類別概率類似與FA中的解釋方差比例。在FA中,解釋方差比例說明每個因子在解釋數據時所占的分量。LCM的潛在類別概率類則用於將樣本分成不同比例的類別。換句話說,潛在類別概率就是用於說明各個類別的人數比例。例如,根據1000個被試在4個觀測指標上的得分情況將其分成3個潛在類別,潛在類別概率為70%,25%和5%,表示第1類有700個被試占70%,第2類有250個被試占25%,第3類有50個被試占5%。

條件概率指潛類別組內的個體在外顯指標上的作答概率。例如,類別潛變量C有3個類別C1,C2和C3,外顯指標A有3個選項,C1的條件概率就是計算C1內的個體在A的三個選項上的選擇比例。依次類推,C2和C3也可以計算各自在A上的條件概率,共9個(每個類別有三個)。由於T1內的個體必然在A的三個不同選項的某個特定選項上選擇,所以類別內的條件概率總和等於1,公式如下。

技術分享

表1-2中呈現了下文探索性LCA分析時4個類別在前5個指標選項1上的條件概率和潛類別概率。

表1-2條件概率和類別概率

潛類別

條件概率

潛類別概率

T1

T2

T3

T4

T5

C1

.390

.435

.276

.184

.182

.2054

C2

.903

.963

.951

.872

.943

.2946

C3

.493

.710

.468

.339

.538

.3357

C4

.739

.790

.883

.551

.883

.1643

註:T1-T5為五個項目;由於每個項目只有兩個選項所以表中只呈現了在一個選項上的條件概率,在第二個選項上的條件概率為1減表中數值。

條件概率與因子負荷類似,表達潛變量與外顯變量之間關系的強弱。各潛在類別的概率總和以及每個外顯變量的條件概率總和都為1,這是LCA模型的基本限制條件;也可以根據特定研究的相關理論對參數進行限定。

一旦最優的LCA模型擬合成功,就需要將每個個體歸入不同的潛在類別。換句話說,就是確定每個個體的潛類別屬性(Class Membership)。在LCA中,采用的分類依據是貝葉斯後驗概率(Posterior Probability),公式如下。

技術分享

後驗類別概率是根據個體的作答類型,在LCA擬合後估計得來,其值表示個體屬於某一類別的概率。根據個體後驗概率的最大值將其歸入特定類別。例如,某個體X在四個類別上的後驗概率分別為.80, .10, .05和.05。根據此值,X在第一類別中的概率值最高,所以應該將歸入第一類。在Mplus中,後驗概率和個體分類如下命令獲得:

表1 LCM分類概率的Mplus語句

SAVEDATA: FILE=ptsd-lca-4.txt;(保存文件名)。

SAVE=cprob;(要求報告後驗概率)。

潛類別模型(Latent Class Modeling)