1. 程式人生 > >SPSS例項教程:有序多分類Logistic迴歸

SPSS例項教程:有序多分類Logistic迴歸

1、問題與資料

在某胃癌篩查專案中,研究者想了解首診胃癌分期(Stage)與患者的經濟水平的關係,以確定胃癌篩查的重點人群。為了避免性別因素對結論的混雜影響,研究者將性別(Sex)也納入分析(本例僅為舉例說明如何進行軟體操作,實際研究中需控制的混雜因素可以更多)。研究者將所有篩查人群的結果如表1,變數賦值如表2。

表1. 原始資料


表2. 變數賦值情況


2、對資料結構的分析

該設計中,因變數為四分類,且分類間有次序關係,針對因變數為分型別資料的情況應該選用Logistic迴歸,故應採用有序多分類的Logistic迴歸分析模型進行分析。

有序多分類的Logistic迴歸原理是將因變數的多個分類依次分割為多個二元的Logistic迴歸,例如本例中因變數首診胃癌分期有1-4期,分析時拆分為三個二元Logistic迴歸,分別為(1 vs 2+3+4) 、(1+2 vs 3+4)、(1+2+3 vs 4),均是較低階與較高階對比。需注意的是,有序多分類Logistic迴歸的假設是,拆分後的幾個二元Logistic迴歸的自變數係數相等,僅常數項不等。其結果也只輸出一組自變數的係數。

因此,有序多分類的Logistic迴歸模型中,必須對自變數係數相等的假設進行檢驗(又稱平行線檢驗)。如果不滿足平行線假設,則考慮使用無序多分類Logistic迴歸或其他統計方法。

3、SPSS分析方法

(1)資料錄入SPSS

首先在SPSS變數檢視(Variable View)中新建四個變數:ID代表患者編號,Sex代表性別,Income代表收入水平,Stage代表首診胃癌分期。賦值參考表1。然後在資料檢視(Data View)中錄入資料。

(2)選擇Analyze → Regression → Ordinal Logistic


(3)選項設定

將因變數Stage放入因變數(Dependent)位置,自變數性別(Sex)、收入水平(Income)為分類變數,故放入因子(Factors)位置。若研究中還有連續型變數需要調整,則放入協變數(Covariate)位置。

點選輸出(Output)選項,勾選平行線檢驗(Test of parallel lines)。其餘選項維持預設。點選確定(OK)。


4、結果解讀

(1)Case Processing Summary

給出的是資料的一般情況,這裡不進行介紹。

(2)模型擬合優度檢驗

有兩個,一個是似然比檢驗結果(Model Fitting Information).該檢驗的原假設是所有納入自變數的係數為0,P(Sig.)<0.001,說明至少一個變數係數不為0,且具有統計學顯著性。也就是模型整體有意義。

另一個結果是擬合優度檢驗(Goodness-of-Fit)結果,提供了Pearson卡方和偏差(Deviance)卡方兩個檢驗結果。但是,這兩個檢驗結果不如上圖的似然比檢驗結果穩健,尤其是納入的自變數存在連續型變數時,因此推薦以似然比檢驗結果為準。

(3)偽決定係數(Pseudo R-Square)

對於分類資料的統計分析,一般情況下偽決定係數都不會很高,對此不必在意。

(4)引數估計(Parameter Estimates)

閾值(Threshold)對應的Stage=1,2,3三個估計值(Estimate)分別是本次分析中拆分的三個二元Logistic迴歸的常數項。位置(Location)中Sex和Income變數對應的引數估計值為自變數的估計值。其中Income為多分類,在分析中被拆分成了三個啞變數(即Income 取值1、2、3),分別與Income=4的組進行對比。且有序多分類Logistic迴歸假定拆分的多個二元迴歸中自變數係數均相等,因此結果只給出了一組自變數係數。

Income=1係數估計值(Estimate)為-1.617意味著,在調整性別變數的情況下,Income=1(即收入水平最低)的組,相比於Income=4(收入水平最高)的組,初診胃癌分期至少低一個等級的可能性是exp(-1.617)=0.198倍。其他係數解釋相同。這說明,收入水平低的人群,其初診胃癌時病情更嚴重。

Sex變數係數無統計學意義(P=0.428),如果沒有其他證據證明不同性別的初診胃癌分期有區別,那麼從模型精簡的角度考慮,應當將Sex變數從模型中去掉再次進行迴歸,得到收入水平的引數估計值。如果研究者比較肯定不同性別初診胃癌分期會產生區別,那麼即使在本研究中其係數無統計學意義也應保留在模型中(因為無統計學意義有可能是因為樣本量小造成的,並不能說明該變數不產生影響)。本研究中予以保留。

(5)平行線假設檢驗(Test of Parallel Lines)

該檢驗的原假設是三個二元Logistic迴歸自變數係數相等,檢驗P(Sig.)值為0.052,不拒絕原假設,可以認為假設成立,可以使用多重有序Logistic迴歸。如果將引數無統計學意義的Sex變數去掉,會發現平行線假定檢驗P值會增大(P=0.175)(是否去掉Sex變數重回歸,取決於是否有充足研究證據證明Sex是一個混雜變數,如果是,Sex變數應保留在模型中)。

5、結果彙總

胃癌患者的初診分期與患者的收入水平有關。低等收入、中等收入與中高等收入人群與高等收入人群相比,初診胃癌分期低至少一個等級的可能性分別為0.198(P<0.001)、0.310(P<0.001)、0.640(P=0.071)倍。

(更多內容可關注“醫咖會”微信公眾號:傳播醫學知識和研究進展,探討臨床研究方法學。)