1. 程式人生 > >數據探索和預處理

數據探索和預處理

數據可視化 分組 流數據 如果 解決 變量 研究 所有 變換

1、數據類型

數據分析中主要有兩類變量:

  • 分類變量:分類變量取值一個集合,每一個值表示變量的一個分類,分類變量可以分為順序變量和名稱變量
    • 順序變量可以按照一定順序排列起來,如:評價體檢結果:不良<一般<良好
    • 名稱變量不存在順序關系,如:性別男或者女
  • 數值變量:本身是數值型,其次可以進行數值操作,如:平均值和標準差等

2、數據探索

數據探索中,主要計算數據的一些統計量,並通過圖和表的形式進行總結

2、1常用的統計量

一般來說,得到數據後首先檢查數據的質量,如:每個變量的取值是否合乎數據定義,通常通過計算數據的一些統計量來檢查數據是否存在問題。另一個問題是數據通常存在缺失值,進行數據探索時要計算每個變量是否存在缺失值,以及缺失值的比例等。

統計變量包括兩個方面:

  • 單個變量的統計量,如數值變量的平均值、極值,分類變量的所有不同取值等
  • 變量之間的統計量,如每兩個變量之間的相關系數

對分類變量:

  • 有多少個不同的取值
  • 每個取值的頻率
  • 最常見的取值

對數值變量:

  • 均值
  • 方差和標準差
  • 中位數
  • 下四分位數
  • 上四分位數
  • 最小和最大值
  • 偏度
  • 數據的具體分布等

3、數據預處理

實際建模中,數據預處理是非常關鍵的一步,直接影響最終模型結果的好壞,大多數情況下,原始數據都不宜直接用來建模,需要對數據進行預處理後才可以建模,數據預處理包括:

  • 刪除部分數據,如直接刪除多余或者無關的數據
  • 增加新的數據,從已有數據中構建新的特征
  • 數據的變換,原始數據不適合直接建模,需要做一些變換以便建模

基於樹的模型對數據不是特別敏感,線性回歸對數據敏感

3.1缺失值處理

第一步:明確缺失數據的重要性,如果對目標值的預測不重要,直接刪除改變量,如果很重要,第一種方法通常采用能夠處理缺失數據的算法進行建模(如:基於決策樹的模型),第二種方法是缺失值填充。

缺失值填充的常用方法:

  • 使用平均值合作中位數填充
  • 使用k近鄰進行填充

k近鄰進行填充:假設樣本X_i的第j個變量缺失記為x_ij,目標就是要估計x_ij,首先利用x_i中沒有缺失的變量,找到最相識的k個樣本,並用這k個樣本的第j個變量的平均值作為x_ij的估計值,缺失算法填充對主要的控制參數k不敏感

3.2數據的標準化

對數值變量,每個變量都有自己的單位,為了解決這個問題,通常先進行數據標準化,經過標準化後的數據,均值都是0,標準差都是1

X_std = (X_i - X_mean)/X_標準差

3.3數據的歸一化

歸一化是把數據變為【0,1】之間:X_a = (X-X_min)/(X_max-X_min)

3.4刪除已有變量

主成分分析PCA降維,但是新的變量是原來變量的線性組合,這樣一般難以解釋新變量

啟發式方法,計算變量之間兩兩之間的相關系數,接近1或者-1,就需要刪除其中一個變量,實際操作中可以要求兩個變量之間相關系數的絕對值低於一個閥值(如0.75)

  • 1、計算變量兩兩之間的相關系數,得到一個dXd的矩陣,若該矩陣所有元素的絕對值都小於規定的閥值,退出。
  • 2、從該矩陣中選出相關系數絕對值最大的兩個變量(v和a)
  • 3、計算變量v和所有其它變量的相關系數的絕對值平均值,C1;同樣為變量a計算對應C2;
  • 4、如果C1>=C2,則刪除變量v,否則刪除變量a
  • 5、重復2-4,直到剩余變量兩兩之間相關系數的絕對值都小於規定的閥值

3.5數據變換

如:變量中有質量和體積,就可以新增密度,刪除質量和體積等

3.6構建新的變量:啞變量

決策樹模型能夠較好的處理分類變量,線性回歸和邏輯回歸不能之間處理分類變量,通常把分類變量轉化為多個啞變量,取值只能為0和1,如果一個分類變量有k中不同的取值,可以建立k-1個新的啞變量來代替,如果一個分類變量不同取值太多,需要進行簡化,如:體檢打分:按照從差到好A、B、C、D、E和F,為了縮小變量取值範圍,A、B=差 ,C、D=中,E、F=好

3.7離群數據的處理

離主流數據很遠的數據點定義為離群數據,一種常用的處理方法是對數據分組,具體是把所有樣本變量的取值從小到大排序,然後分成若幹組,然後對應組中數據的均值或者中位數來對他進行修正,常用的分組方法有:

  • 等距分組:把整個數據分布區間分成若幹個等長的子區間
  • 等頻分組:在劃分過程中每個區間樣本數一樣

4、數據可視化

1、直方圖、莖葉圖顯示樣本分布的有效方法

2、柱狀圖通常用來研究分類變量不同取值的分布情況

3、箱線圖:下四分位數、上四分位數、中位數

4、散點圖研究變量之間的關系, x和y為不同的兩個變量

數據探索和預處理