[線性相關] 皮爾森相關係數的計算及假設檢驗

阿新 • • 發佈：2019-01-17

皮爾森相關係數，又稱積差相關係數、積矩相關係數，可以看做將兩組資料首先做Z分數處理之後, 然後兩組資料的乘積和除以樣本數Z分數一般代表正態分佈中, 資料偏離中心點的距離.等於變數減掉平均數再除以標準差。按照大學的線性數學水平來理解, 它比較複雜一點,可以看做是兩組資料的向量夾角的餘弦。

從以上解釋，也可以理解皮爾遜相關的約束條件:

1、兩個變數間有線性關係

2、變數是連續變數

3、兩個變數的總體均符合正態分佈：取大樣本進行正態分佈非引數檢驗

4、兩變數獨立

在實踐統計中，一般只輸出兩個係數，一個是相關係數，也就是計算出來的相關係數大小，在-1到1之間；另一個是獨立樣本檢驗係數，用來檢驗樣本一致性。

現舉例說明計算相關係數的一般步驟：

　　例9.1　測定15名健康成人血液的一般凝血酶濃度（單位/毫升）及血液的凝固時間（秒），測定結果記錄於表9.1第（2）、（3）欄，問血凝時間與凝血酶濃度間有無相關？

　　1．繪圖，將表9.1第（2）、（3）欄各對資料繪成散點圖。

　　2．求出∑X、∑Y、∑X²、∑Y²、∑XY，見表9.1下方。

　　3，代入公式，求出r值。

表9.1　相關係數計算表

受試者號（1）	凝血酶濃度(單位/毫升)X （2）	凝血時間(秒)Y （3）
1	1.1	14
2	1.2	13
3	1.0	15
4	0.9	15
5	1.2	13
6	1.1	14
7	0.9	16
8	0.9	15
9	1.0	14
10	0.9	16
11	1.1	15
12	0.9	16
13	1.1	14
14	1.0	15
15	0.8	17
合計	15.1	222

∑X=15.1　∑Y=222

∑XY=221.7　
　∑X²=15.41∑Y²=3304　　　　

　　本例的相關係數r=-0.9070，負值表示血凝時間隨凝血酶濃度的增高而縮短；絕對值∣-0.9070∣表示這一關係的密切程度。至於此相關係數是否顯著，則要經過下面的分析。

　　（二）相關係數的假設檢驗

　　雖然樣本相關係數r可作為總體相關係數ρ的估計值，但從相關係數ρ=0的總體中抽出的樣本，計算其相關係數r，因為有抽樣誤差，故不一定是0，要判斷不等於0的r值是來自ρ=0的總體還是來自ρ≠0的總體，必須進行顯著性檢驗。檢驗假設是ρ=0，r與0的差別是否顯著要按該樣本來自ρ=0的總體概率而定。如果從相關係數ρ=0的總體中取得某r值的概率P>0.05，我們就接受假設，認為此r值的很可能是從此總體中取得的。因此判斷兩變數間無顯著關係；如果取得r值的概率P≤0.05或P≤0.01，我們就在α=0.05或α=0.01水準上拒絕檢驗假設，認為該r值不是來自ρ=0的總體，而是來自ρ≠0的另一個總體，因此就判斷兩變數間有顯著關係。

　　由於來自ρ-0的總體的所有樣本相關係數呈對稱分佈，故r的顯著性可用t檢驗來進行。本例r=-0.9070，進行t檢驗的步驟為：

　　1．建立檢驗假設，H₀：ρ=0，H₁：ρ≠0，α=0.01

　　2．計算相關係數的r的t值：

　　（9.3）

　　3．查t值表作結論

　　ν=n-2=15-2=13

　　根據專業知識知道凝血酶濃度與凝血時間之間不會呈正相關，故宜用單側界限，查t值表得

　　t_0.01,13=2.650

　　今∣t_r∣>t_0.01,13，P<0.01，在α=0.01水準上拒絕H₀，接受H₁，故可認為凝血時間的長短與血液中酶濃度有負相關。

　　為簡化t_r檢驗的計算過程，數理統計工作者根據t分配表，已把不同自由度時r的臨界值求出，並列成相關係數界值表（見附表11）。故求相關係數後，只需查表就可知道該r值是否顯著，而不必再計算t_r值。

　　r的顯著性界限為

　　|r|<r0.05,　P>0.05　相關不顯著

r_0.05≤|r|<r0.01,0.05≥P>0.01　在α=0.05水準上相關顯著

　　|r|≥r_0.01,P≤0.01　在α=0.01水準上相關顯著

　　例9.1的ν =15-2=13，查附表11中P^（1）的界值，得：

　　r_0.05,13=0.441 r_0.01,13=0.592

　　現r=-0.9070,∣r∣>r_0.01,13,P<0.01,按α=0.01水準，拒絕H_O,接受H₁。認為ρ≠0，說明凝血時間的長短與血液中凝血酶濃度有負相關。結論與計算所得一致。

　　相關係數的顯著性與自由度的大小有關，如n=3,ν=1時，雖r=-0.9070，卻為不顯著；若ν=400時，即使r=0.1000，亦為顯著。因此不能只看r的值，不考慮ν就下結論。

[線性相關] 皮爾森相關係數的計算及假設檢驗

[線性相關] 皮爾森相關係數的計算及假設檢驗

[秩相關] Spearman秩相關係數計算及假設檢驗

皮爾森相關係數演算法

Spearman秩相關係數和Pearson皮爾森相關係數

皮爾森相關係數Pearson correlation coefficient

相關性檢驗--Spearman秩相關係數和皮爾森相關係數

推薦演算法之-皮爾遜相關係數計算兩個使用者喜好相似度

皮爾遜相關係數的計算(python程式碼版)

統計學三大相關係數之皮爾森（pearson）相關係數

【Python學習筆記】使用Python計算皮爾遜相關系數

Pearson(皮爾遜)相關係數

皮爾遜相關係數和餘弦相似度

【126】TensorFlow 使用皮爾遜相關係數找出和標籤相關性最大的特徵值

集體智慧程式設計-皮爾遜相關係數程式碼理解

如何通俗易懂地理解皮爾遜相關係數？

資料探勘之曼哈頓距離、歐幾裡距離、明氏距離、皮爾遜相關係數、餘弦相似度Python實現程式碼

皮爾遜相關係數定義+python程式碼實現（與王印討論公式）

利用皮爾遜相關係數找出與目標最相關的特徵（Python實現）

marchine learning 之皮爾遜相關係數

①協方差、相關係數（皮爾遜相關係數），等同於：內積、餘弦值。

[線性相關] 皮爾森相關係數的計算及假設檢驗

相關推薦