資料特徵分析技能—— 相關性檢驗

阿新 • • 發佈：2018-12-19

資料特徵分析技能—— 相關性檢驗

相關性分析是指對兩個或多個具備相關性的變數元素進行分析，從而衡量兩個變數因素的相關密切程度
一般常用四種方法：
- 畫圖判斷
- pearson（皮爾遜）相關係數
- sperman（斯皮爾曼）相關係數
- Cosine similarity (餘弦相關係數)

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
% matplotlib inline

繪製圖形判斷

一般對於強相關性的兩個變數，畫圖就能定性判斷是否相關

data1 = pd.Series(np.random.rand(50)*100).sort_values()
data2 = pd.Series(np.random.rand(50)*50).sort_values()
data3 = pd.Series(np.random.rand(50)*500).sort_values(ascending = False)
# 建立三個資料：data1為0-100的隨機數並從小到大排列，data2為0-50的隨機數並從小到大排列，data3為0-500的隨機數並從大到小排列，

fig = plt.figure(figsize = (10,4))
ax1 = fig.add_subplot(1 
,2,1)
ax1.scatter(data1, data2)
plt.grid()
# 正線性相關

ax2 = fig.add_subplot(1,2,2)
ax2.scatter(data1, data3)
plt.grid()
# 負線性相關

這裡寫圖片描述

# （2）散點圖矩陣初判多變數間關係

data = pd.DataFrame(np.random.randn(200,4)*100, columns = ['A','B','C','D'])
pd.plotting.scatter_matrix(data,figsize=(8,8),
                         c = 'k' 
,
                         marker = '+',
                         diagonal='hist',
                         alpha = 0.8,
                         range_padding=0.1)
data.head()

	A	B	C	D
0	83.463300	108.208281	-16.441879	-69.039664
1	-114.341786	-176.341932	-64.282506	54.378911
2	-108.781464	116.223511	11.996554	4.445215
3	-124.358401	-74.357458	-46.089528	-73.539092
4	87.330398	205.767923	59.964420	137.955811

這裡寫圖片描述

pearson（皮爾遜）相關係數

要求樣本滿足正態分佈
- 兩個變數之間的皮爾遜相關係數定義為兩個變數之間的協方差和標準差的商，其值介於-1與1之間

公式：
```
協方差：
```
$s_{xy}=\frac{1}{n-1}\sum_{k=1}^{n}\left(x_{k}-\bar{x}\right)\left(y_{k}-\bar{y}\right)$
```
標準差：
```
$s_{x}=\sqrt{\frac{1}{n-1}\sum_{k=1}^{n}\left ( x_{k}-\bar{x} \right )^{2}}$
```
皮爾遜相關係數: 
```
$\frac{ s_{xy} }{ s_{x} s_{y} } = \frac{\sum_{k=1}^{n}\left(x_{k}-\bar{x}\right)\left(y_{k}-\bar{y}\right)}{\sqrt{\sum_{k=1}^{n}\left ( x_{k}-\bar{x} \right )^{2}} \sqrt{\sum_{k=1}^{n}\left ( y_{k}-\bar{y} \right )^{2}}}$

data1 = pd.Series(np.random.rand(100)*100).sort_values()
data2 = pd.Series(np.random.rand(100)*50).sort_values()
data = pd.DataFrame({'value1':data1.values,
                     'value2':data2.values})
print(data.head())
print('------')
# 建立樣本資料

u1,u2 = data['value1'].mean(),data['value2'].mean()  # 計算均值
std1,std2 = data['value1'].std(),data['value2'].std()  # 計算標準差
print('value1正態性檢驗：\n',stats.kstest(data['value1'], 'norm', (u1, std1)))
print('value2正態性檢驗：\n',stats.kstest(data['value2'], 'norm', (u2, std2)))
print('------')
# 正態性檢驗 → pvalue >0.05


data['(x-u1)*(y-u2)'] = (data['value1'] - u1) * (data['value2'] - u2)
data['(x-u1)**2'] = (data['value1'] - u1)**2
data['(y-u2)**2'] = (data['value2'] - u2)**2
print(data.head())
print('------')
# 製作Pearson相關係數求值表

r = data['(x-u1)*(y-u2)'].sum() / (np.sqrt(data['(x-u1)**2'].sum() * data['(y-u2)**2'].sum()))
print('Pearson相關係數為：%.4f' % r)
# 求出r
# |r| > 0.8 → 高度線性相關

     value1    value2
0  0.438432  0.486913
1  2.974424  0.663775
2  4.497743  1.417196
3  5.490366  2.047252
4  6.216346  3.455314

------
value1正態性檢驗：
 KstestResult(statistic=0.07534983222255448, pvalue=0.6116837468934935)
value2正態性檢驗：
 KstestResult(statistic=0.11048646902786918, pvalue=0.1614817955196972)
------

     value1    value2  (x-u1)*(y-u2)    (x-u1)**2   (y-u2)**2
0  0.438432  0.486913    1201.352006  2597.621877  555.603052
1  2.974424  0.663775    1133.009967  2345.549928  547.296636
2  4.497743  1.417196    1062.031735  2200.319086  512.612654
3  5.490366  2.047252    1010.628854  2108.181383  484.479509
4  6.216346  3.455314     931.020494  2042.041746  424.476709
------
Pearson相關係數為：0.9937

# Pearson相關係數 - 演算法

data1 = pd.Series(np.random.rand(100)*100).sort_values()
data2 = pd.Series(np.random.rand(100)*50).sort_values()
data = pd.DataFrame({'value1':data1.values,
                     'value2':data2.values})
print(data.head())
print('------')
# 建立樣本資料

data.corr()
# pandas相關性方法：data.corr(method='pearson', min_periods=1) → 直接給出資料欄位的相關係數矩陣
# method預設pearson

value1 value2 0 0.983096 0.368653 1 1.107613 0.509117 2 1.130588 0.755587 3 2.996367 0.909899 4 3.283088 1.233879 ——

	value1	value2
value1	1.000000	0.996077
value2	0.996077	1.000000

Sperman秩相關係數

皮爾森相關係數主要用於服從正太分佈的連續變數，對於不服從正太分佈的變數，分類關聯性可採用Sperman秩相關係數，也稱 等級相關係數

計算方法：
- 對兩個變數按照取值大小從小到大編秩，Rx代表Xi的秩次，Ry代表Yi的秩次
- 如果兩個變數秩次一樣，則秩次為（index1+index2）/ 2
- di = Rx -Ry
公式：
$\rho_{s} = 1 - \frac{6\sum d_{i}^2}{n(n^2-1)}$

data = pd.DataFrame({'智商':[106,86,100,101,99,103,97,113,112,110],
                    '每週看電視小時數':[7,0,27,50,28,29,20,12,6,17]})
print(data)
print('------')
# 建立樣本資料

data.sort_values('智商', inplace=True)
data['range1'] = np.arange(1,len(data)+1)
data.sort_values('每週看電視小時數', inplace=True)
data['range2'] = np.arange(1,len(data)+1)
print(data)
print('------')
# “智商”、“每週看電視小時數”重新按照從小到大排序，並設定秩次index

data['d'] = data['range1'] - data['range2']
data['d2'] = data['d']**2
print(data)
print('------')
# 求出di，di2

n = len(data)
rs = 1 - 6 * (data['d2'].sum()) / (n * (n**2 - 1))
print('Sperman秩相關係數為：%.4f' % rs)
# 求出rs

    智商  每週看電視小時數
0  106         7
1   86         0
2  100        27
3  101        50
4   99        28
5  103        29
6   97        20
7  113        12
8  112         6
9  110        17
------
    智商  每週看電視小時數  range1  range2
1   86         0       1       1
8  112         6       9       2
0  106         7       7       3
7  113        12      10       4
9  110        17       8       5
6   97        20       2       6
2  100        27       4       7
4   99        28       3       8
5  103        29       6       9
3  101        50       5      10
------
    智商  每週看電視小時數  range1  range2  d  d2
1   86         0       1       1  0   0
8  112         6       9       2  7  49
0  106         7       7       3  4  16
7  113        12      10       4  6  36
9  110        17       8       5  3   9
6   97        20       2       6 -4  16
2  100        27       4       7 -3   9
4   99        28       3       8 -5  25
5  103        29       6       9 -3   9
3  101        50       5      10 -5  25
------
Sperman秩相關係數為：-0.1758

# spearman相關係數 - 演算法

data = pd.DataFrame({'智商':[106,86,100,101,99,103,97,113,112,110],
                    '每週看電視小時數':[7,0,27,50,28,29,20,12,6,17]})
print(data)
print('------')
# 建立樣本資料

data.corr(method='spearman')
# pandas相關性方法：data.corr(method='pearson', min_periods=1) → 直接給出資料欄位的相關係數矩陣
# method預設pearson

智商每週看電視小時數 0 106 7 1 86 0 2 100 27 3 101 50 4 99 28 5 103 29 6 97 20 7 113 12 8 112 6 9 110 17 ——

	智商	每週看電視小時數
智商	1.000000	-0.175758
每週看電視小時數	-0.175758	1.000000

資料特徵分析技能—— 相關性檢驗

資料特徵分析技能—— 相關性檢驗相關性分析是指對兩個或多個具備相關性的變數元素進行分析，從而衡量兩個變數因素的相關密切程度一般常用四種方法： - 畫圖判斷 - pearson（皮爾遜）相關係數 - sperman（斯皮爾曼）相關係數 - Cosine similar

資料特徵分析技能—— 帕累託分析

資料特徵分析技能—— 帕累託分析又稱ABC分類庫存控制法，主次因分析法，20/80定律等。 - 一般來說投入產出，努力和報酬之間並不是絕對的線性關係，總有一些關鍵因素起著至關重要的作用，而帕累託分析就是找到影響事務的關鍵因素，分清主次。 import numpy

資料特徵分析技能—— 統計分析

資料特徵分析技能——統計分析統計指標對定量資料進行統計描述，常從集中趨勢和離中趨勢兩個方面進行分析 import numpy as np import pandas as pd import matplotlib.pyplot as plt % matplotlib

資料特徵分析技能—— 分佈分析

資料特徵分析技能—— 分佈分析分佈分析法又稱直方圖法。它是將蒐集到的質量資料進行分組整理，繪製成頻數分佈直方圖，用以描述質量分佈狀態的一種分析方法 import numpy as np import pandas as pd import matplotlib.pyp

資料探索（2）資料特徵分析

資料特徵分析分佈分析 1.定量資料的分佈分析對於定量變數而言，選擇組數和組寬是做頻率分佈分析時最主要的問題，一般按照以下步驟進行。 1）求極差 2）決定組距和組數 3）決定分店 4）列出頻率分佈表 5）繪製頻率分佈直方圖遵循以下原則： 1）各組之間必須相互排斥 2）各組

R資料特徵分析

貢獻度分析 barplot(dishdata[,3],col = 'green1',names.arg = dishdata[,2],width = 1,space = 0, ylim = c(0,10000),xlab = "菜品",ylab = "盈利：元")

第一章資料特徵分析

一、幾個基礎分析思路分佈分析：研究資料的分佈特徵、分佈型別，按定量、定性資料區分基本統計量對比分析：兩個互相聯絡的指標進行比較統計分析：對定量資料進行統計分析，常從集中趨勢和離中趨勢兩個方面分析帕累託分析：貢獻度分析，帕累託原則：20/80定律正太性

未明學院：量化金融訓練營開始報名，成為兼具資料分析技能+專案實戰經驗的複合型人才！

想進金融行業卻不懂資料？你正在失去機會吳軍在《矽谷之謎》一書中說，“大資料的本質，就是通過資訊消除不確定性”，而不確定性，在金融領域，就意味著收益和風險。金融行業天然要跟資料打交道，幾乎不存在與資料完全無關的崗位。金融從業者需要利用計算機技術從龐大的資料中獲得別人看不見的資訊，以資料分析

我練就資料分析技能從HR轉型為產品經理

本文轉自知乎作者：空白白白白 ————————————————————————————————————————————————————— 空白白白白寫在前面：當我在奧蘭多的時候，一位漂亮的女學員（看票圈照片）想預約我時間聊一下如何在公司中推廣資料分析並且為公司帶

資料探索簡介——質量分析、特徵分析

此處參考《python資料分析和挖掘實戰》這本書資料質量分析：主要是對異常值的分析： 1、3σ原則：如果資料符合正態分佈，那麼資料異常定義在一組測定值與平均值的偏差超過3倍標準差的值。在正態分佈的假設下，距離平均值3σ之外的值出現的概率為P(|x-μ|>3σ)≤0.003，屬於極

上網行為、應用層協議資料特徵與流量特徵分析（招商合作）

現在各種網路產品裝置，都已經離不開上網行為管理或應用協議識別這一重要功能，如果您想讓您的產品更具競爭力，就要提高您的產品應用協議識別率，協議特徵庫是網路應用層流量管理產品的生命力，而具備完善的應用協議特徵庫，才能減少對應用的誤識別、漏識

R語言|資料預處理--4變數分析及相關性

因變數與自變數之間的關係包括兩種：自變數為數值型別和分類型別請參考R專案客戶回覆預測與效益最大化 1、分別檢視資料的屬性為數值型和因子型別的屬性 which(sapply(cup98, is.numeric)) > idx.num ODATEDW DOB

資料分析技能提升十大建議

1、熟悉行業、公司業務熟悉行業、公司業務及路程，弱脫離行業認知和公司業務背景，分析的結果只會是脫了線的風箏，沒有太大的使用價值。 2、明確分析目的常常有朋友問我這些資料可以做什麼分析？這是典型的為了分析而分析。資料分析的前提需要先明確分析目的，這樣分析才有意

仁潤雲丨網路小貸風控資料介面分析（多頭借貸，芝麻信用）

對於網路小貸平臺而言，徵信和風控是業務發展過程中的重要環節。網路小貸業務主要防範的是欺詐風險和信用風險，諸如借款人通過套現、偽造、冒領冒用、惡意透支等手段進行騙貸。此外，平臺與平臺之間資訊不透明，使用者同時在多個平臺重複借貸等不良現象時常出現，市場資料共享機制有待完善。關於網路小貸風控，常

大資料線上分析處理和常用工具

大資料線上分析處理的特點 . 資料來源源不斷的到來；資料需要儘快的得到處理，不能產生積壓；處理之後的資料量依然巨大，仍然後TB級甚至PB級的資料量；處理的結果能夠儘快的展現；以上四個特點可以總結為資料的收集->資料的傳輸->資料的處理-&g

Fiddler4抓取資料並分析（完整的配置教程）

個人分類：【軟體】一、Fiddler 現在的移動應用程式幾乎都會和網路打交道，所以在

統計分析之引數檢驗與非引數檢驗、匹配樣本與獨立樣本、2樣本與K樣本介紹----附SPSS操作指南

最近幾天博主需要做一些計算生物學分析，重新溫習了一遍統計學的知識。由於博主此次使用的是非引數檢驗，將重點介紹非引數檢驗相關內容，仍然是深入淺出的風格，先放一些概念，再總結實際使用的技巧。寫在這裡，供大家參考學習。

live555從RTSP伺服器讀取資料到使用接收到的資料流程分析

本文在linux環境下編譯live555工程，並用cgdb除錯工具對live555工程中的testProgs目錄下的openRTSP的執行過程進行了跟蹤分析，直到將從socket端讀取視訊資料並儲存為對應的視訊和音訊資料為止。進入testProgs目錄，執行./openRTSP rtsp://

資料特徵工程之量化裝箱

量化裝箱假設這樣一個數據集，裡面某些屬性的值差異很大，小的可能是10以內，大至幾百幾千，這樣我們該如何去量化呢？直接將它們送入模型可行嗎？ &

大資料文字分析的應用場景有哪些？

https://www.pmcaff.com/discuss/index/480966354177088?from=related&pmc_param%5Bentry_id%5D=1000000000167873 自問自答一發。之前寫過2篇相關的文章：【資料運營】在運營中，為什麼文字分析遠比數值

資料特徵分析技能—— 相關性檢驗

資料特徵分析技能—— 相關性檢驗

繪製圖形判斷

pearson（皮爾遜）相關係數

Sperman秩相關係數

相關推薦