數據探索和預處理
1、數據類型
數據分析中主要有兩類變量:
- 分類變量:分類變量取值一個集合,每一個值表示變量的一個分類,分類變量可以分為順序變量和名稱變量
- 順序變量可以按照一定順序排列起來,如:評價體檢結果:不良<一般<良好
- 名稱變量不存在順序關系,如:性別男或者女
- 數值變量:本身是數值型,其次可以進行數值操作,如:平均值和標準差等
2、數據探索
數據探索中,主要計算數據的一些統計量,並通過圖和表的形式進行總結
2、1常用的統計量
一般來說,得到數據後首先檢查數據的質量,如:每個變量的取值是否合乎數據定義,通常通過計算數據的一些統計量來檢查數據是否存在問題。另一個問題是數據通常存在缺失值,進行數據探索時要計算每個變量是否存在缺失值,以及缺失值的比例等。
統計變量包括兩個方面:
- 單個變量的統計量,如數值變量的平均值、極值,分類變量的所有不同取值等
- 變量之間的統計量,如每兩個變量之間的相關系數
對分類變量:
- 有多少個不同的取值
- 每個取值的頻率
- 最常見的取值
對數值變量:
- 均值
- 方差和標準差
- 中位數
- 下四分位數
- 上四分位數
- 最小和最大值
- 偏度
- 數據的具體分布等
3、數據預處理
實際建模中,數據預處理是非常關鍵的一步,直接影響最終模型結果的好壞,大多數情況下,原始數據都不宜直接用來建模,需要對數據進行預處理後才可以建模,數據預處理包括:
- 刪除部分數據,如直接刪除多余或者無關的數據
- 增加新的數據,從已有數據中構建新的特征
- 數據的變換,原始數據不適合直接建模,需要做一些變換以便建模
基於樹的模型對數據不是特別敏感,線性回歸對數據敏感
3.1缺失值處理
第一步:明確缺失數據的重要性,如果對目標值的預測不重要,直接刪除改變量,如果很重要,第一種方法通常采用能夠處理缺失數據的算法進行建模(如:基於決策樹的模型),第二種方法是缺失值填充。
缺失值填充的常用方法:
- 使用平均值合作中位數填充
- 使用k近鄰進行填充
k近鄰進行填充:假設樣本X_i的第j個變量缺失記為x_ij,目標就是要估計x_ij,首先利用x_i中沒有缺失的變量,找到最相識的k個樣本,並用這k個樣本的第j個變量的平均值作為x_ij的估計值,缺失算法填充對主要的控制參數k不敏感
3.2數據的標準化
對數值變量,每個變量都有自己的單位,為了解決這個問題,通常先進行數據標準化,經過標準化後的數據,均值都是0,標準差都是1
X_std = (X_i - X_mean)/X_標準差
3.3數據的歸一化
歸一化是把數據變為【0,1】之間:X_a = (X-X_min)/(X_max-X_min)
3.4刪除已有變量
主成分分析PCA降維,但是新的變量是原來變量的線性組合,這樣一般難以解釋新變量
啟發式方法,計算變量之間兩兩之間的相關系數,接近1或者-1,就需要刪除其中一個變量,實際操作中可以要求兩個變量之間相關系數的絕對值低於一個閥值(如0.75)
- 1、計算變量兩兩之間的相關系數,得到一個dXd的矩陣,若該矩陣所有元素的絕對值都小於規定的閥值,退出。
- 2、從該矩陣中選出相關系數絕對值最大的兩個變量(v和a)
- 3、計算變量v和所有其它變量的相關系數的絕對值平均值,C1;同樣為變量a計算對應C2;
- 4、如果C1>=C2,則刪除變量v,否則刪除變量a
- 5、重復2-4,直到剩余變量兩兩之間相關系數的絕對值都小於規定的閥值
3.5數據變換
如:變量中有質量和體積,就可以新增密度,刪除質量和體積等
3.6構建新的變量:啞變量
決策樹模型能夠較好的處理分類變量,線性回歸和邏輯回歸不能之間處理分類變量,通常把分類變量轉化為多個啞變量,取值只能為0和1,如果一個分類變量有k中不同的取值,可以建立k-1個新的啞變量來代替,如果一個分類變量不同取值太多,需要進行簡化,如:體檢打分:按照從差到好A、B、C、D、E和F,為了縮小變量取值範圍,A、B=差 ,C、D=中,E、F=好
3.7離群數據的處理
離主流數據很遠的數據點定義為離群數據,一種常用的處理方法是對數據分組,具體是把所有樣本變量的取值從小到大排序,然後分成若幹組,然後對應組中數據的均值或者中位數來對他進行修正,常用的分組方法有:
- 等距分組:把整個數據分布區間分成若幹個等長的子區間
- 等頻分組:在劃分過程中每個區間樣本數一樣
4、數據可視化
1、直方圖、莖葉圖顯示樣本分布的有效方法
2、柱狀圖通常用來研究分類變量不同取值的分布情況
3、箱線圖:下四分位數、上四分位數、中位數
4、散點圖研究變量之間的關系, x和y為不同的兩個變量
數據探索和預處理