1. 程式人生 > >SPSS:T檢驗、方差分析、非參檢驗、卡方檢驗的使用要求和適用場景

SPSS:T檢驗、方差分析、非參檢驗、卡方檢驗的使用要求和適用場景

一、T檢驗

1.1 樣本均值比較T檢驗的使用前提
  1. 正態性;(單樣本、獨立樣本、配對樣本T檢驗都需要)
  2. 連續變數;(單樣本、獨立樣本、配對樣本T檢驗都需要)
  3. 獨立性;(獨立樣本T檢驗要求)
  4. 方差齊性;(獨立樣本T檢驗要求)
1.2 樣本均值比較T檢驗的適用場景
  1. 單樣本T檢驗(比較樣本均數和總體均數);
    操作:開啟 分析—比較均值—單樣本t檢驗

    要求:正態性(可以用K-S檢驗法,在SPSS中的“分析”–“非引數檢驗”—“單樣本”中;或者直接根據直方圖、P-P圖,Q-Q圖來觀察或根據偏度峰度法來分析)

    說明:由中心極限定理可知,即使原資料不符合正態分佈,只要樣本量足夠大時樣本均數分佈仍然是正態的。只要資料不是強烈的偏正態,沒有明顯的極端值,一般而言單樣本t檢驗都是可以使用的,分析結果都是穩定的。

  2. 獨立樣本T檢驗(比較成組設計的兩個樣本);
    操作:開啟 分析—比較均值—獨立樣本t檢驗
    我們輸入資料的時候,兩個樣本的資料是要在一列變數裡的,另外還有一列二分類變數為這列因變數做標註。

    要求:獨立性、正態性(對正態性有耐受性)、方差齊性(影響大,檢驗更有必要,使用Levene’s檢驗,兩樣本T檢驗中提供Levene’s檢驗,如需更詳細的檢驗結果可在“分析”–“描述統計”–“探索”中進行)

    說明:各樣本相互獨立,且均來自於正態分佈的樣本,各樣本所在總體的方差相等;

    * 疑問:獨立性怎麼檢驗?有些資料可以根據現實環境判斷;*

  3. 配對樣本T檢驗(如用藥前和用藥後的兩個人群的樣本、同一樣品用兩種方法的比較)
    操作:開啟 分析—比較均值—配對樣本t檢驗

    要求:正態性(配對樣本等價於單樣本T檢驗,檢驗的是兩個樣本對應的差值,初始假設為差值等於0)

二、單因素方差分析

2.1 單因素方差分析的基本思想
  • 基本思想:變異分解,總變異=隨機變異+處理因素導致的變異,又可以分解為總變異=組內變異+組間變異,F=組間變異/組內變異,F的值越大,處理因素的影響越大。
2.2 單因素方差分析的使用前提
  1. 獨立性:不滿足獨立性會有很大的影響,因為資訊存在“重疊”的部分
    疑問:在哪兒可以驗證?卡方檢驗?卡方檢驗檢驗的是兩個分類變數
  2. 正態性:對正態性的要求是穩健的
  3. 方差齊性:檢驗方法除了Levene’s檢驗,還可以有其他的檢驗方法:Bartleet法(比較各組方差的加權算數平均數和幾何均數)、Hartley法(樣本量相同時使用)、Cochran法(樣本量相同時使用)。
    方差分析對變數的型別有要求嗎?應該分析的都是連續變數
2.3 單因素方法分析的使用前提不滿足時變換方法
  • 對數變換、平方根變換、平方根反正弦變換、平方變換、倒數變換、Box-Cox變換(分段函式)
2.4 單因素方差分析的適用場景
  • T檢驗只能檢驗兩組樣本的均數差,多組樣本的時候就需採用方差分析;

  • 操作:開啟分析—比較均值—均值 進行預分析,可以大致看出各均值是否相同,方差是否齊性;再進行 開啟 分析—比較均值—單因素anova;

  • 適用場景:均數間的多重比較(全部兩兩比較)、各組均數的精細比較(可以指定要比較的兩個組,通過設定係數)、組間均數的趨勢檢驗(為了利用分組變數中體現出的次序資訊,目的不是為了擬合線性或非線性的模型,而是希望知道因素的水平改變時均數的變化趨勢)

2.5 方差分析結束後如均值不同可進行兩兩比較(事前比較、事後比較)
  • LSD法:用於事先計劃好的比較,最靈敏;檢驗水準沒有校正,每次都是α
    Sidak法:第二靈敏;
    Bonferroni法:用於事先計劃好的比較,第三靈敏;
    Scheffe法:多用樣本含量不等的情況,第四靈敏;
    Dunnett法:常用於多個實驗組和一個對照組的比較,第五靈敏;

  • 尋找同質亞組的檢驗方法:
    S-N-K法:將所有樣本分為多個子集;
    Tukey法:任意兩組比較,要求樣本含量相同,MEER不超過α;
    Duncan法:與SNK法類似;

  • 備註:
    CER:每進行一次比較犯一類錯誤錯誤的概率;
    EERC:完全無效假設檢驗下,做完全部比較犯一類錯誤的概率;
    MEER:部分或者任何完全假設下,犯一類錯誤的最大概率值,即最大實驗誤差率。

疑問:單因素方差分析的事前檢驗和事後檢驗有什麼區別,為什麼結果不同??

三、非引數檢驗

3.1 非引數檢驗的基本思想
  • 非引數檢驗的意思是指整個推斷過程和結論均和原總體引數無關,而不是不利用引數
3.2 非引數檢驗的優勢
  1. 穩健性;
  2. 對資料的測量尺度、資料型別無約束;
  3. 適用於小樣本、無分佈樣本、資料汙染樣本、混雜樣本等;
3.3 非引數檢驗使用前提
  1. 有序、名義變數,這類資料的分佈形態一般未知,均值方差等資料無意義;
  2. 樣本分佈未知;
  3. 樣本資料不滿足正態分佈,即便是經過變數變換;
  4. 方差齊性不滿足,即便是經過變數變換;
  5. 總體分佈正態,連續變數,但樣本容量極小,如10以下;
3.2 非引數檢驗適用情形
  1. 單樣本非引數檢驗

    • K-S檢驗:針對連續變數,考察是否符合正態分佈
      操作:開啟–分析–非引數檢驗–單樣本

    • 二項分佈檢驗:針對兩分類變數,考察是否符合二項分佈
      操作:開啟–分析–非引數檢驗–單樣本

    • 遊程檢驗:考察總體的隨機性
      操作:開啟–分析–非引數檢驗–單樣本
  2. 兩個獨立樣本的非引數檢驗(無效假設為兩樣本的中心位置是否相等)

    • Mann-Whitney U檢驗,兩樣本秩和檢驗,應用範圍最廣;

    • Kolmogorov-Smirnov Z檢驗:檢驗兩個樣本的累積頻數分佈曲線,判斷兩個樣本的分佈是否相同;

    • Moses Extreme Reactions 檢驗:Moses極端反應檢驗,單側檢驗

    • Wald-Wolfowitz Runs 檢驗:單側檢驗,無論是集中趨勢、離散趨勢、偏度的波動情況都能檢測出來,如果只是檢查中心位置,最好不用,檢驗兩樣本是否來自同樣的分佈;

    • 操作:開啟 分析—非引數檢驗—獨立樣本

  3. 多個獨立樣本的非引數檢驗

    • Kruskal-Wallis H檢驗(類似Wilcoxon符號秩檢驗,兩樣本在多樣本上的推廣)

    • 中位數檢驗

    • Jonckheere-Terpstra檢驗:對連續變數和有序分類資料都使用,分組變數為有序分類資料時,檢驗效能要高於Kruskal-Wallis H檢驗

    • 操作:開啟 分析—非引數檢驗—獨立樣本

  4. 兩個配對樣本(求出差值,檢視中位數是否為0,目的就是為了檢驗均值是否相等)

    • sign符號檢驗:只利用了符號資訊,差值是否一半為正一半為負;

    • Wilcoxon符號秩檢驗:利用了符號和差值的大小順序(符號+秩序)

    • 操作:開啟 分析—非引數檢驗—相關樣本
  5. 多個相關樣本非引數檢驗

    • Friedman 檢驗:基本思想是同區組的處理值和計算的秩比較才有意義,還附帶齊性子集結果給出了準確的兩兩比較資訊;

    • Kendall協和係數檢驗:為了檢驗各組評價是否一致,Friedman檢驗只能說明尚不能認為有差異,但是無法評判一致性,Kendall方法針對連續變數,

    • Cochran檢驗:有些評價只能用是否、好壞等二元資料來判斷,Cochran只適用於二分類變數,用Kendall方法會有很多的打結現象。

    • 操作:開啟 分析–非引數檢驗–相關樣本

  6. 通用方法—秩變換分析方法

    • 前面有關秩的分析方法其實都是秩變換方法的不同應用,分析方法中可以直接將秩求出後再進行分析。

    • 操作:轉換 — 個案排秩(也可以指定生成符合正態分佈的秩)

四、卡方檢驗

4.1 卡方檢驗的基本思想
  • 以卡方分佈為基礎,計算觀察值和期望值之間的偏離程度;
4.2 卡方檢驗的使用前提
  1. 最小期望頻數均大於1
  2. 至少4/5的單元格期望頻數大於5
  3. 計算時如果單元格期望頻數小於5要和其他種類合併
  4. 樣本觀察值量超過50
4.3 卡方檢驗的使用目的
  1. 考察無序分類變數各水平在兩組或多組間的分佈是否一致;
  2. 檢驗某個連續變數的分佈是否和理論分佈一致;
  3. 分類變數的概率是否等於指定概率;
  4. 檢驗兩個分類變數是否獨立;
  5. 檢驗控制了其中幾個因素後,剩餘的兩個分類變數是否獨立;
  6. 檢驗兩種方法的結果是否一致;
4.4 卡方檢驗的適用場景
  1. 單樣本卡方檢驗
    操作: 開啟 分析–非引數檢驗–單樣本

  2. 兩樣本卡方檢驗
    操作: 開啟 分析–描述統計–交叉表

  3. 兩分類變數間關聯程度的度量:定性描述兩個分類變數是否存在關聯(更為詳細的可以根據相關分析)
    操作: 開啟 分析–描述統計–交叉表

  4. Kappa一致性檢驗(用於配對樣本,如兩個人針對一個事物的評價)
    用於配對樣本的檢驗,Kappa檢驗的結果是兩個人的評價是否是相關的
    操作: 開啟 分析–描述統計–交叉表

  5. Mcnemar 配對卡方檢驗
    Kappa檢驗只能看出兩者是否有關聯,但是不能判斷是否一致,Mcnemar 配對卡方檢驗就可以解決兩者是否一致的問題
    操作: 開啟 分析–描述統計–交叉表

  6. 分層卡方檢驗
    可以控制一個因素,如收入對車輛購買率的影響,可以將城市作為分層因素,從而可以得到更準確的結果,但是SPSS中只能進行兩分類變數的檢驗,不能進行多分類的檢驗,且分層因素和要分析的因素之間如果存在互動關係也不能進行檢驗。
    操作: 開啟 分析–描述統計–交叉表

4.5 備註
  • 相對危險度(RR)
    RR=試驗人群反應陽性的概率/對照組人群反應陽性的概率
    RR=1,說明試驗因素反應陽性沒有關聯
    RR<1,說明試驗因素導致反應陽性的發生率降低
    RR>1,說明試驗因素導致反應陽性的發生率升高

  • 優勢比(OR)
    OR=(反應陽性組中實驗因素陽性人數/反應陽性組中實驗因素陰性人數)/(反應陰性組中實驗因素陽性人數/反應陰性組中實驗因素陰性人數)
    OR>1,說明該試驗因素更容易導致實驗結果為陽性

PS:這篇部落格陸續寫了半個月,簡直汗顏,是對自己看了SPSS基礎教程的理解和整理,還有很多疑問,如有對內容質疑的歡迎討論。