相關係數評價標準的相關知識
連結:https://www.zhihu.com/question/51784983/answer/127640857
來源:知乎
著作權歸作者所有。商業轉載請聯絡作者獲得授權,非商業轉載請註明出處。
說來話長,正好我講過這一章,所以就從課件中複製貼上過來(資料來源是David S. Moore的 《統計學的世界》),我儘量剪短一點(主要是公式太難貼上,相信你可以在任何一本統計學書上找到下文所涉及的公式)。如果嫌前面背景介紹太麻煩,請直接到最後一段——
線性關係(straight-line)是相當重要的一種變數間的關係——它雖然簡單但卻很普遍。如果(散點圖)中的點越接近一條直線,那麼線性關係就越強,如果越散亂,則線性關係越弱。有一種數字方法可以幫助我們描述這種線性相關
關係有多強,這個數字就是correlation——相關係數r(計算公式略)。。。------相關係數背景知識-----
相關係數的含義 Understanding Correlation
比計算r(a task for a machine)更重要的是瞭解correlation是如何衡量相關關係。以下是關於r的幾個事實:
► r正號正相關、負號負相關(Positive r indicatespositive association between the variables, and negative r indicates negativeassociation.)。
► r值介於[-1, 1]之間(The correlation r always fallsbetween
–1 and 1)。r值越接近0,相關度越弱(等於0,線性無關),隨著r值往-1或1移動,相關度增強,越接近-1或1,則points越接近一條直線。如果是取到極端值(r = -1和r = 1),則散點圖的points就是在一條直線上。
► r與x, y變數的單位無關,改變變數的單位並不影響它們之間的相關關係(Becauser use standard scores, the correlation between x and y does notchange when we change the units of measurement of x, y, or both)。r本身沒有單位。► r
不對自變數和因變數進行區分(Correlation ignoresthe distinction between explanatory and response variables)。如果對調我們對x和y的選擇,r仍舊不變。► r只衡量兩個變數之間線性相關關係(straight-line association)的強弱。但無法描述兩個變數間的曲線關係(curved relationships),不論這種曲線關係有多強。——即使r顯示兩個變數間線性無關,也無法斷定兩個變數間沒有線性以外的關係。
----相關係數深入知識----
Correlation & regression 相關係數與迴歸
線上性迴歸分析中還經常可以看到r2——相關係數的平方,又叫相關判定係數。
r2 就是變數y值的變動能用迴歸直線來解釋的比例(the fraction of the variation in the values of y that is explained by the least-squares regression of y on x)。其中的意義在於,假如存在直線迴歸關係,則y值的變動之中有一部分是由於x的變化引起的——x沿著迴歸直線拉動y值。涉及三個概念:
a. y的變動(Total sum of squares)——y的觀測值yi圍繞y均值的變動(Measures variation of observed yi around the mean),即SST
b. 可解釋的變動(Explained variation)——由於x和y存線上性關係引起的變動(Variation due torelationship between x & y),即SSR
c. 不可解釋的變動(Unexplained variation)——由於其它因素引起的變動(Variationdue to other factor),即SSE
三者的關係:SST = SSR + SSE,總變動 = 可解釋變動 + 不可解釋變動,如圖
r2= 可預測的因x的變動引起的y在迴歸直線上變動 / y觀測值的總變動
= 可解釋變動 / 總變動
=SSR/SST
運用該方法計算出來的r2,與先計算相關係數r之後,再平方得到的是同一個數(計算相關係數r的另一個方法——先求r2,然後再開根號,但缺點是不能判斷正負號(不知道相關的方向。)。由r2的計算公式可知,0≤r2≤1。r2的含義:
► 當r = ±1時,r2= 1,所有的點都在同一條直線上。直線關係解釋所有y的變動(SST=SSR、y的變動全部由於x的變動引起),迴歸直線能完美預測y值。
► 當r≠±1且r≠0時,0<r2<1時(SST>SSR),線性關係能部分解釋y的變動(所解釋的部分就是r2所代表的值)。如前面施肥與產量的例子r = .956,r2=.914,亦即產量y的變動中大約有有91%能由與施肥量x線性關係來解釋。
► 當r = 0,r2= 0,y的全部無法由於線性關係解釋。
在迴歸預測中,通常用r2來衡量如果以迴歸模型來解釋因變數有多成功(how successful the regressionwas in explaining the response)。如果提供的是相關係數,將其平方後你就能更好的理解線性關係的強弱。比如:如果r = ±.7,則兩個變數線性相關關係介於線性無關(r = 0)和完全線性相關( r = ±1)的“半路上”,因為(.7)^2= 0.49。課本上的練習和例子一般提供的r(甚至r2)都大於.9(高度相關),現實中只要迴歸模型的r2在.4、.5甚至.3(即相當於r在.5以上)就可以認為其擬合度相當高,可以利用其進行線性關係預測。
——資料來源:David S. Moore, 《統計學的世界》,中信出版社,2003年11月
問題到這裡,你就知道為何
“相關係數 0.8-1.0 極強相關
0.6-0.8 強相關
0.4-0.6 中等程度相關
0.2-0.4 弱相關
0.0-0.2 極弱相關或無相關 ”
了吧?把相關係數平方一下。