相關性檢驗--Spearman秩相關係數和皮爾森相關係數
本文給出兩種相關係數,係數越大說明越相關。你可能會參考另一篇部落格獨立性檢驗。
皮爾森相關係數
皮爾森相關係數(Pearson correlation coefficient)也叫皮爾森積差相關係數(Pearson product-moment correlation coefficient),是用來反應兩個變數相似程度的統計量。或者說可以用來計算兩個向量的相似度(在基於向量空間模型的文字分類、使用者喜好推薦系統中都有應用)。
皮爾森相關係數計算公式如下:
ρX,Y=cov(X,Y)σXσY=E((X−μX)(Y−μY))σXσY=E(XY)−E(X)E(Y)E(X2)−E2(X)√E(Y2)
分子是協方差,分子是兩個變數標準差的乘積。顯然要求X和Y的標準差都不能為0。
當兩個變數的線性關係增強時,相關係數趨於1或-1。正相關時趨於1,負相關時趨於-1。當兩個變數獨立時相關係統為0,但反之不成立。比如對於y=x2,X服從[-1,1]上的均勻分佈,此時E(XY)為0,E(X)也為0,所以ρX,Y=0,但x和y明顯不獨立。所以“不相關”和“獨立”是兩回事。當Y 和X服從聯合正態分佈時,其相互獨立和不相關是等價的。
對於居中的資料來說(何謂居中?也就是每個資料減去樣本均值,居中後它們的平均值就為0),E(X)=E(Y)=0,此時有:
ρX,Y=E(XY)E(X2)√E(Y2)√=1N∑N
即相關係數可以看作是兩個隨機變數中得到的樣本集向量之間夾角的cosine函式。
進一步當X和Y向量歸一化後,||X||=||Y||=1,相關係數即為兩個向量的乘積ρX,Y=X∙Y。
Spearman秩相關係數
首先說明秩相關係數還有其他型別,比如kendal秩相關係數。
使用Pearson線性相關係數有2個侷限:
- 必須假設資料是成對地從正態分佈中取得的。
- 資料至少在邏輯範圍內是等距的。
對於更一般的情況有其他的一些解決方案,Spearman秩相關係數就是其中一種。Spearman秩相關係數是一種無引數(與分佈無關)
對原始資料xi,yi按從大到小排序,記x'i,y'i為原始xi,yi在排序後列表中的位置,x'i,y'i稱為xi,yi的秩次,秩次差di=x'i-y'i。Spearman秩相關係數為:
ρs=1−6∑d2in(n2−1)
位置 | 原始X | 排序後 | 秩次 | 原始Y | 排序後 | 秩次 | 秩次差 |
1 | 12 | 546 | 5 | 1 | 78 | 6 | 1 |
2 | 546 | 45 | 1 | 78 | 46 | 1 | 0 |
3 | 13 | 32 | 4 | 2 | 45 | 5 | 1 |
4 | 45 | 13 | 2 | 46 | 6 | 2 | 0 |
5 | 32 | 12 | 3 | 6 | 2 | 4 | 1 |
6 | 2 | 2 | 6 | 45 | 1 | 3 | -3 |
對於上表資料,算出Spearman秩相關係數為:1-6*(1+1+1+9)/(6*35)=0.6571
查閱秩相關係數檢驗的臨界值表
n | 顯著水平 | |
0.01 | 0.05 | |
5 | 0.9 | 1 |
6 | 0.829 | 0.943 |
7 | 0.714 | 0.893 |
n=6時,0.6571<0.829,所以在0.01的顯著水平下認為X和Y是不相關的。
如何原始資料中有重複值,則在求秩次時要以它們的平均值為準,比如:
原始X | 秩次 | 調整後的秩次 |
0.8 | 5 | 5 |
1.2 | 4 | (4+3)/2=3.5 |
1.2 | 3 | (4+3)/2=3.5 |
2.3 | 2 | 2 |
18 | 1 | 1 |
Spearman秩相關係數應該是從秩和檢驗延伸過來的,因為它們很像。
相關性和相似度的區別
X=(1,2,3)跟Y=(4,5,6)的皮爾森相關係數等於1,說明X和Y是嚴格線性相關的(事實上Y=X+3)。
但是X和Y的相似度卻不是1,如果用餘弦距離來度量,X和Y之間的距離明顯大於0。