資料特徵分析技能—— 統計分析

阿新 • • 發佈：2018-12-19

資料特徵分析技能——統計分析

統計指標對定量資料進行統計描述，常從集中趨勢和離中趨勢兩個方面進行分析

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline

集中趨勢度量

指一組資料向某一中心靠攏的傾向，核心在於尋找資料的代表值或中心值

取得集中趨勢代表值的方法有兩種：數值平均數和位置平均數
- 數值平均數
- 算數平均數
- 調和平均數
- 幾何平均數
- 位置平均數
- 眾數
- 中位數

數值平均數

算數平均數

關注數值，魯棒性弱（穩定性較弱，易受到異常值影響）

data = pd.DataFrame({'value':np.random.randint(100,120,100),
                    'f':np.random.rand(100)})
data['f'] = data['f'] / data['f'].sum()  # f為權重，這裡將f列設定成總和為1的權重佔比
print(data.head())
print('-----------------')

# 算數平均值
mean = data['value'].mean()
print('算數平均數為：%.2f' 
%mean)

mean_w = (data['value'] * data['f']).sum() / data['f'].sum()
print('加權算數平均值為：%.2f'%mean_w)
# 加權算數平均值 = (x1f1 + x2f2 + ... + xnfn) / (f1 + f2 + ... + fn)

          f  value
0  0.014970    118
1  0.007184    116
2  0.007459    101
3  0.005892    110
4  0.016599    119
-----------------
算數平均數為：110.09
加權算數平均值為：110.69

幾何平均數

計算幾何平均數要求各觀察值之間存在連乘積關係，它的主要用途是
1. 對比率、指數等進行平均
2. 計算平均發展速度
- 樣本資料非負，主要用於對數正態分佈
3. 複利下的平均年利率
4. 連續作業的車間求產品的平均合格率

$G_{n} = \sqrt[n]{x_{1}x_{2}x_{3}x_{4}x_{...}x_{n}}$

幾何平均數

# 一位投資者持有股票，1996年，1997年，1998年，1999年收益率分別為
# 4.5%, 2.0%, 3.5%, 5.4%,
# 求此4年內平均收益率
from scipy.stats import gmean
data_g = gmean(data['value'])
data_g

109.96165465844449

位置平均數

中位數：
- 關注順序，魯棒性強

眾數：
- 關注頻次

# 中位數
med = data['value'].median()
print('中位數為%i' % med)
# 中位數指將總體各單位標誌按照大小順序排列後，中間位置的數字


# 眾數
m = data['value'].mode()
print('眾數為',m.tolist())
# 眾數是一組資料中出現次數最多的數，這裡可能返回多個值


# 密度曲線
data['value'].plot(kind='kde',style='--k',grid=True,figsize=(10,6))



# 簡單算術平均
plt.axvline(mean,hold=None,color='r',linestyle='--',alpha=0.8)
plt.text(mean+5,0.005,'簡單算術平均值：%.2f' % mean,color='r',fontsize=15)


# 加權平均數
plt.axvline(mean_w,hold=None,color='b',linestyle='--',alpha=0.8)
plt.text(mean+5,0.01,'加權平均值：%.2f' % mean_w,color='b',fontsize=15)

# 幾何平均數
plt.axvline(data_g,hold=None,color='g',linestyle='--',alpha=0.8)
plt.text(mean+5,0.015,'幾何平均值：%.2f' % data_g,color='g',fontsize=15)

# 中位數
plt.axvline(med,hold=None,color='y',linestyle='--',alpha=0.8)
plt.text(mean+5,0.020,'幾何平均值：%.2f' % med,color='y',fontsize=15)

中位數為110
眾數為 [108]

這裡寫圖片描述

離中趨勢度

是指一組資料中個數據值以不同程度偏離其中心（平均數）的趨勢，又稱標誌變動度

# 建立資料，銷售資料
data = pd.DataFrame({'A_sale':np.random.rand(30)*1000,
                    'B_sale':np.random.rand(30)*1000},
                   index = pd.period_range('20170601','20170630'))
print(data.head())

                A_sale      B_sale
2017-06-01  574.693080  970.059264
2017-06-02  278.487440  683.602258
2017-06-03  830.472896  293.102768
2017-06-04  505.211093  268.009253
2017-06-05  316.383594  134.011541

極差與分位差

極差：
- 沒有考慮中間值的變動情況，測定離中趨勢時不準確

分位差：
- 從一組資料踢出部分極端值後的從新計算類似極差的指標，常用的有四分位差，八分位差

a_r = data['A_sale'].max() - data['A_sale'].min()
b_r = data['B_sale'].max() - data['B_sale'].min()
print('A產品銷售額極差為：%.2f,B產品銷售額極差為：%.2f'%(a_r,b_r))

A產品銷售額極差為：920.98,B產品銷售額極差為：914.30

sta = data['A_sale'].describe()
stb = data['B_sale'].describe()
#print(sta)
a_iqr = sta.loc['75%'] - sta.loc['25%']
b_iqr = stb.loc['75%'] - stb.loc['25%']
print('A銷售額的分位差為：%.2f, B銷售額的分位差為：%.2f' % (a_iqr,b_iqr))

A銷售額的分位差為：481.57, B銷售額的分位差為：508.45

# 繪製箱型圖

color = dict(boxes='DarkGreen', whiskers='DarkOrange', medians='DarkBlue', caps='Gray')
data.plot.box(vert=False,grid = True,color = color,figsize = (10,6))
# 箱型圖

png

方差與標準差

平均差：平均差是總體所有單位與其算術平均數的離差絕對值的算術平均數，1範數，異常值影響

$MD = \frac{\sum_N \|x - \bar{x}\|}{N}$
方差：差的平方的均值，2範數，異常值影響

總體方差

σ^{2} = \frac{\sum_{N} (X - E (X))^{2}}{N}

$\sigma^2 = \frac{\sum_N (X-E(X))^2}{N}$

樣本方差

s^{2} = \frac{\sum_{N} (x - \bar{x})^{2}}{N - 1}

$s^2 = \frac{\sum_N (x - \bar{x})^2}{N-1}$

標準差：方差的算數平方根（應用最廣）

平均差 VS 方差：對異常值的敏感程度不同

離散係數（常用的是標準差係數：資料標準差和算數平均數的比）

C V = \frac{σ}{μ}

$CV = \frac{\sigma}{\mu}$

a_std = sta.loc['std']
b_std = stb.loc['std']
a_var = data['A_sale'].var()
b_var = data['B_sale'].var()
print('A銷售額的標準差為：%.2f, B銷售額的標準差為：%.2f' % (a_std,b_std))
print('A銷售額的方差為：%.2f, B銷售額的方差為：%.2f' % (a_var,b_var))
# 方差 → 各組中數值與算數平均數離差平方的算術平均數
# 標準差 → 方差的平方根
# 標準差是最常用的離中趨勢指標 → 標準差越大，離中趨勢越明顯

A銷售額的標準差為：292.12, B銷售額的標準差為：293.35
A銷售額的方差為：85331.19, B銷售額的方差為：86052.83

fig = plt.figure(figsize = (12,4))
ax1 = fig.add_subplot(1,2,1)
data['A_sale'].plot(kind = 'kde',style = 'k--',grid = True,title = 'A密度曲線')
plt.axvline(sta.loc['50%'],hold=None,color='r',linestyle="--",alpha=0.8)  
plt.axvline(sta.loc['50%'] - a_std,hold=None,color='b',linestyle="--",alpha=0.8)  
plt.axvline(sta.loc['50%'] + a_std,hold=None,color='b',linestyle="--",alpha=0.8)  
# A密度曲線，1個標準差

ax2 = fig.add_subplot(1,2,2)
data['B_sale'].plot(kind = 'kde',style = 'k--',grid = True,title = 'B密度曲線')
plt.axvline(stb.loc['50%'],hold=None,color='r',linestyle="--",alpha=0.8)  
plt.axvline(stb.loc['50%'] - b_std,hold=None,color='b',linestyle="--",alpha=0.8)  
plt.axvline(stb.loc['50%'] + b_std,hold=None,color='b',linestyle="--",alpha=0.8)  
# B密度曲線，1個標準差

這裡寫圖片描述

資料特徵分析技能—— 統計分析

資料特徵分析技能——統計分析統計指標對定量資料進行統計描述，常從集中趨勢和離中趨勢兩個方面進行分析 import numpy as np import pandas as pd import matplotlib.pyplot as plt % matplotlib

資料特徵分析技能—— 分佈分析

資料特徵分析技能—— 分佈分析分佈分析法又稱直方圖法。它是將蒐集到的質量資料進行分組整理，繪製成頻數分佈直方圖，用以描述質量分佈狀態的一種分析方法 import numpy as np import pandas as pd import matplotlib.pyp

【雷達與對抗】【2010.12】實驗雷達雜波資料的譜和統計分析

本文為土耳其中東技術大學（作者：NAZLI DEN˙ IZ KAHYAOGLU）的碩士論文，共157頁。雷達探測和成像系統的效能很大程度上取決於雷達雜波的特性。為了改善雷達訊號處理演算法，需要對雷達雜波進行成功的分析和建模。對於一個成功的雷達雜波模型，應當能夠揭示出雜波的頻譜和統計特

Python-資料分析-Pandas統計分析基礎2

前些日子一直在忙實驗，結束後又去忙其他事情，看完了Pandas一直沒有時間寫筆記，今天忙裡偷閒再寫一篇Pandas DataFrame是最常用的Pandas物件，類似於Microsoft Office Excel表格，完成資料讀取後，DataFrame資

R資料探勘技術-基於R語言的資料探勘和統計分析技術

培訓要點網際網路點選資料、感測資料、日誌檔案、具有豐富地理空間資訊的移動資料和涉及網路的各類評論，成為了海量資訊的多種形式。當資料以成百上千TB不斷增長的時候，我們在內部交易系統的歷史資訊之外，需要一種基於大資料分析的決策模型和技術支援。目前對大資料的分析工具，有Had

R-基本統計分析--描述性統計分析

及其 pre dice 數據集 returns length 平均值 sun 52.0 描述性統計分析主要包括基本信息：樣本數、總和集中趨勢：均值、中位數、眾數離散趨勢：方差(標準差)、變異系數、全距(最小值、最大值)、內四分位距(25%分位數、75%分位數) 分布

資料特徵分析技能—— 相關性檢驗

資料特徵分析技能—— 相關性檢驗相關性分析是指對兩個或多個具備相關性的變數元素進行分析，從而衡量兩個變數因素的相關密切程度一般常用四種方法： - 畫圖判斷 - pearson（皮爾遜）相關係數 - sperman（斯皮爾曼）相關係數 - Cosine similar

資料特徵分析技能—— 帕累託分析

資料特徵分析技能—— 帕累託分析又稱ABC分類庫存控制法，主次因分析法，20/80定律等。 - 一般來說投入產出，努力和報酬之間並不是絕對的線性關係，總有一些關鍵因素起著至關重要的作用，而帕累託分析就是找到影響事務的關鍵因素，分清主次。 import numpy

地統計分析筆記——探索資料

在執行地統計分析之前，瀏覽、熟悉、檢查自己的資料是至關重要的。繪製和檢查資料是地統計分析過程中的必要階段，我們可以從這些工作中獲得一些先驗知識，指導後續的工作。 Stage 1 繪製資料通過ArcMap的圖層渲染方案繪製資料，我們可以獲得對資料的第一印象。例如，使用

《從零進階！資料分析的統計基礎》讀書筆記

第一章：資料分析概論：本章主要介紹資料分析的概念、分析步驟和分析方法，介紹如何在Excel2013年安裝資料分析工具，以及如何安裝SPSS資料分析軟體，這是在後續課程中進行資料分析的基礎。 1.1資料分析定義 a.目標：資料分析的關鍵在於設立目標，有針對性 b.方法：資料分析的方法包括統計分析和資料

大資料專案實戰之新聞話題統計分析

前言：本文是一個完整的大資料專案實戰，實時|離線統計分析使用者的搜尋話題，並用JavaEE工程前端介面展示出來。這些指標對網站的精準營銷、運營都有極大幫助。架構大致是按照企業標準來的，從日誌的採集、轉化處理、實時計算、JAVA後臺開發、WEB前端展示，一條完整流程線下來，甚至每個節點都用的高可用架構

未明學院：量化金融訓練營開始報名，成為兼具資料分析技能+專案實戰經驗的複合型人才！

想進金融行業卻不懂資料？你正在失去機會吳軍在《矽谷之謎》一書中說，“大資料的本質，就是通過資訊消除不確定性”，而不確定性，在金融領域，就意味著收益和風險。金融行業天然要跟資料打交道，幾乎不存在與資料完全無關的崗位。金融從業者需要利用計算機技術從龐大的資料中獲得別人看不見的資訊，以資料分析

資料探索（2）資料特徵分析

資料特徵分析分佈分析 1.定量資料的分佈分析對於定量變數而言，選擇組數和組寬是做頻率分佈分析時最主要的問題，一般按照以下步驟進行。 1）求極差 2）決定組距和組數 3）決定分店 4）列出頻率分佈表 5）繪製頻率分佈直方圖遵循以下原則： 1）各組之間必須相互排斥 2）各組

R資料特徵分析

貢獻度分析 barplot(dishdata[,3],col = 'green1',names.arg = dishdata[,2],width = 1,space = 0, ylim = c(0,10000),xlab = "菜品",ylab = "盈利：元")

8(中)_林業資料的統計分析

林業地理資訊資料管理之八（中） - 林業資料的統計分析（陳家安徽省林業調查規劃院）二、變化圖層的處理鄉鎮林業站得到分發的資料後，就可以依據本年度變化的資料進行向量化修改，比如將2016年的林地資料修改為2017年資料，然後我們需要生成變化圖層

我練就資料分析技能從HR轉型為產品經理

本文轉自知乎作者：空白白白白 ————————————————————————————————————————————————————— 空白白白白寫在前面：當我在奧蘭多的時候，一位漂亮的女學員（看票圈照片）想預約我時間聊一下如何在公司中推廣資料分析並且為公司帶

第一章資料特徵分析

一、幾個基礎分析思路分佈分析：研究資料的分佈特徵、分佈型別，按定量、定性資料區分基本統計量對比分析：兩個互相聯絡的指標進行比較統計分析：對定量資料進行統計分析，常從集中趨勢和離中趨勢兩個方面分析帕累託分析：貢獻度分析，帕累託原則：20/80定律正太性

【輕粒子】快應用資料統計分析平臺正式上線了！！！

【輕粒子】快應用資料統計分析平臺簡介 —專注於快應用的資料統計分析平臺導語：【輕粒子】快應用資料統計分析平臺是為快應用專門打造的一款資料統計分析產品，除提供日常

統計分析——描述統計之資料水平描述

一組樣本資料的數值特徵一般來說可以從三個方面來描述：資料的水平（也可以稱之為集中趨勢或位置度量），反映資料的數值大小資料的差異，反映資料間的離散程度資料的分佈形狀，反映資料分佈的偏度和峰度描述水平的統計量資料水平是指數值大小，描述資

第1章-資料探索(4)-資料的統計分析

簡介資料探索的第二個部分就是統計分析部分了。根據第四章的知識，我們知道對於特徵子集的篩選，即對變數的篩選，我們有兩個大角度，一個角度是從統計角度來看，一個角度是從機器學習演算法的角度(正則化)來看。站在第二個角度的立場，我們是不用進行這麼複雜的統計分析的，直接跑模型即可。那麼接下

資料特徵分析技能—— 統計分析

資料特徵分析技能——統計分析

集中趨勢度量

數值平均數

算數平均數

幾何平均數

位置平均數

離中趨勢度

極差與分位差

方差與標準差

相關推薦