1. 程式人生 > >第1章-資料探索(4)-資料的統計分析

第1章-資料探索(4)-資料的統計分析

簡介

資料探索的第二個部分就是統計分析部分了。

根據第四章的知識,我們知道對於特徵子集的篩選,即對變數的篩選,我們有兩個大角度,一個角度是從統計角度來看,一個角度是從機器學習演算法的角度(正則化)來看。站在第二個角度的立場,我們是不用進行這麼複雜的統計分析的,直接跑模型即可。那麼接下來的內容,我們主要是站在第一個角度的立場來看問題,順便了解一些統計方法。

統計分析又可以分為描述性分析以及推斷性分析兩個小部分。描述性的分析,往往是通過資料視覺化實現的。而推斷性統計分析,融合了抽樣、概率、假設檢驗等統計學理論,根據樣本來推斷中體的特性。

站在第一個角度的立場,對於統計學習部分的迴歸模型與演算法,一般都需要擇優選取一些與目標變數相關性較高的變數作為主要變數。在篩選這些主要變數時,會需要經過一些推斷性分析,尤其要對其概率分佈做出嚴格的要求的模型;而對於機器學習、人工智慧中的其他非統計學習部分的模型與演算法,一般僅僅通過描述性分析即可。

接下來我將分別介紹描述性統計與推斷性統計分析。

正文

1,概述

(1)資料型別

在統計分析中,變數可分為分類變數與數值變數兩大屬性的變數型別,如下圖所示。在不同型別的變數之間,其分析方式、統計方法也會有所差異。

在這裡插入圖片描述

(2)分析場景

通常,我們會對每個變數進行單變數分析,單變數分析主要是描述性統計,以及驗證分佈的推斷性統計。

然後在進行兩兩變數之間的分析,並確定變數間有無相互影響,包括了描述性統計與驗證相關性的推斷性統計分析方法。

於是就會出現下面的五種場景。針對不同的場景,我們也會有不同的分析方法。

單變數分析 單變數分析方法與目標 雙變數分析 雙變數分析的方法
方法 描述性統計 + 統計分佈的正態性檢驗 分類變數與分類變數 列聯表、擬合優度、關係係數
數值變數 比如,是否需要把數值變數進行分組 分類變數與數值變數 方差分析、迴歸分析
分類變數 比如,把黑吉遼三個省的變數合併為東北地區,是否更有利於分析 數值變數與數值變數 相關分析、迴歸分析

2,描述性分析

(1)用於單變數分析的指標

我們先來看看,單變數分析中,常用的三類指標,包括,集中趨勢、離散趨勢、偏度與峰度。這些指標,都能用來描述一組資料的分佈情況的,並且可以評價不同組之間的情況。

比如射擊運動中,A運動員射擊10次平均得到8環,而B運動員射擊10次平均得到9環。此處的平均即是集中趨勢的一種體現,用一個指標來表示一組資料的平均水平。顯然從平均成績來看,B運動員要優於A運動員。

然而,如果A運動員的標準差要是比B運動員小的話,說明B運動員發揮不如A運動員穩定。而綜合兩個指標,就形成了新的指標,差異係數或變異係數 = 標準差/平均值 。接下來我們詳細介紹一下,這三類指標。

  • 集中趨勢
指標名稱 定義 說明
算數平均數 一組資料的總和與個數之比 最常用,但是容易受到極端值的影響,且只適用於數值變數
中位數 一組資料按大小排序,正中間位置的值即中位數(資料個數是偶數時,取正中間兩個資料的平均值) 不易受極端值的影響,且常與四分之一分為數,四分之三分位數一起使用,適用於數值變數以及分類變數中的有序變數
眾數 一組資料中,出現次數最多的資料,即為眾數 眾數不唯一 ,且適用於數值與分類變數
  • 離散趨勢
指標名稱 定義 說明
方差 s 2 = E ( ( x μ ) 2 ) = 1 n [ ( x 1 x ) 2 + ( x 2 x ) 2 + . . . + ( x n x ) 2 ] s^2=E((x-μ)^2)=\frac{1}{n}{[(x_1-\overline{x})^2+(x_2-\overline{x})^2+...+(x_n-\overline{x})^2]} 方差與標準差都能反應一組資料的離散程度
標準差 S = S 2 S = \sqrt{S^2}
極差 最大值減去最小值 易受極端值影響
四分位距(IQR) 四分之三分位數減去四分之一分位數 較穩定
變異係數 標準差/均值 可以跨組比較離散情況,適用於數值型
離異係數 樣本量減去眾數出現的頻數後,與樣本量的比 n f ( m o d ) n \frac{n-f_(mod)}{n} 適用於名義變數
Gini-Simpson指數 G S = 1 i = 1 n p i 2 G-S = 1- \sum_{i=1}^n{p_i^2} 每個變數 p i p_i 出現的概率越平均,趨於相等,則離散程度越小,G-s值越小
H = i = 1 n p i l n p i H = - \sum_{i=1}^n{p_i*lnp_i} 物理學、資訊學概念

對於離散趨勢很嚴重的變數,尤其是分類變數,往往需要進行部分分類的合併,否則會影響建模。同時,對於集中趨勢很明顯的數值變數,也可能需要分組才能發揮變數更好的作用,或者該變數將不會產生太大的作用,可以將其剔除。

  • 偏度與峰度
指標名稱 定義 說明
偏度 skew = E ( x μ σ ) 3 E(\frac{x-μ}{σ})^3 skew > 0 右偏,skew < 0 左偏,skew = 0 正態分佈
峰度 kurt = E ( x μ σ ) 4 E(\frac{x-μ}{σ})^4 kurt > 3 厚尾,kurt < 3 瘦尾,kurt = 3 正態分佈

偏度與峰度可以用來初步判斷,一個變數是否符合正態分佈。

(2)用於單變數或雙變數分析的視覺化圖表

描述性分析中,圖表有很多種,下面僅舉出一些具有代表性的圖表

  • 分類變數:頻數/頻率表、條形圖、餅圖、帕裡託圖
  • 數值變數:概率密度圖、直方圖、箱線圖、散點圖、折線圖、QQ圖

重點需要區分一下條形圖與直方圖:

  • 條形圖,在統計了不同分類變數個數的基礎上,用寬度相同的條形的高度或長短來表示資料多少的圖形。條形圖可以橫置或縱置,縱置時也稱為柱形圖。
  • 直方圖,在對連續性變數進行分組後,對於不同的組進行統計的基礎上,再用柱形圖來表示。所以,分組(也叫分箱)的寬度對於直方圖來說很重要,當分組寬度趨向於無窮小的時候,直方圖就變成了概率密度圖。

3,推斷性分析

(1)單變數正態性檢驗

無論是用指標—偏度與峰度,還是用描述性分析—直方圖與QQ圖,都是定性的分析來判斷分佈是否接近正態分佈。

精確的統計推斷,需要用到假設檢驗。

  • 擬合優度(Chi-square)檢驗
  • Kolmogorov-Smirnov(KS) 檢驗
  • Shapiro-Wilk檢驗法

(2)雙變數相關性檢驗-分類變數與分類變數

  • 列聯表卡方檢驗
  • 秩相關檢驗

(3)雙變數相關性檢驗-分類變數與數值變數

  • 把數值型的變數分組轉成分類變數

(4)雙變數相關性檢驗-數值變數與數值變數

  • 相關分析
  • 卡方檢驗

上一節:第1章-資料探索(3)-資料預處理之R實現
下一節:第1章-資料探索(5)-資料的統計分析之Python實現