第1章-資料探索(1)-資料預處理

阿新 • • 發佈：2018-12-29

簡介

在我們瞭解了業務背景，確定了需求和分析目標以後，我們接下來要面對的，就是資料的探索了。不論資料的形式是直接連到資料庫、還是匯出的csv、txt、json等格式，當我們把資料載入到我們的分析利器(excel/spss/r/python/matlab)之後，不需要太多時間，我們就能瞭解到資料的概貌了，比如維度是N * M，以及各個欄位的含義等等。

然而，接下來要做的事情，就不是“不需要太多時間”能夠解決的了。資料建模之前(資料探勘、機器學習等)超過一半的時間，都是在進行資料探索。畢竟這幾個領域中都流傳著一句話“rubbish in rubbish out”。所以，這樣做也是值得的。

個人的理解，資料探索分為兩個大部分：

1，資料的預處理
2，資料的統計分析

本文主要先講一下資料的預處理問題。

正文

資料預處理的主要內容包括

資料清洗，處理“髒亂差”的資料
資料整合，把不同來源、格式、特點性質的資料合併到一起
資料變換，處理數值計算、屬性的對映以及維度空間的變換
資料規約，在儘可能保持資料原貌的前提下，最大限度地精簡資料量

資料預處理的順序

資料清洗與資料整合並沒有嚴格意義上的先後順序，究竟是先整合再清洗、還是先清洗再整合可以依照實際情況而定。因為資料整合以後，可能還會涉及到資料清洗的部分環節。

資料變換與資料規約一般在資料清洗以及整合以後，且兩者在處理過程中也是相輔相成的，有的資料規約方法也需要以資料變換為前提。

一，資料清洗，清洗了什麼？

從五個方面來進行資料的清洗，個人總結抽象概況為SINCE原則
(看了很多市場營銷的書，歪果仁都願意把一些原則弄成個易記的單詞，於是此處提升一下B格).

 1，Simple  簡單的：去除冗餘與重複

重複即100%的冗餘，一般刪除即可
而冗餘需要提取主要資訊，去除次要資訊
有些情況還會需要資訊融合

舉個栗子：

有一個公司引入了供應鏈金融，於是一個人想要買東西，申請不同渠道的消費貸款時，就會得到不同渠道反饋的對該消費者評級。

假設有甲金融機構，乙金融機構，丙金融機構，
甲反饋結果是對使用者進行 A，B，C的評級；
乙反饋結果是對使用者進行 0~700分的評級；
丙反饋結果是對使用者進行優秀，良，中，差的評級；

顯然，從資訊上看，這三個結果的價值是趨同的，合併成一個維度會比留著三個要精簡。由於每個渠道的評級結果不同，最終，我們可能合併結果時，就變成了二元變量了，即，好與其他，壞與其他。

 2，Integral  完整的：缺失值的處理

缺失值的處理，需要認真對待

缺失的資料如果佔總體比較少，是最好操作的了，可以直接刪除。
然而，現實情況下，往往缺失的資料佔比很多，缺失的原因又千奇百怪，又的甚至無法知道原因。所以，缺失的處理是非常複雜的，需要單獨摘出一章，將在第六章給出對應的方法。

 3，Normal  標準的

名稱、型別、單位、格式、長度、縮寫、等要符合統一的標準
範圍要在業務或常識的標準的值域內
最終的資料大都需要進行標準化處理

舉個栗子：

日期，有的用’Mon’,有的用’Monday’,有的用’M’，就需要統一。

年齡出現了負數，就需要處理。

最後，在把資料放進模型之前，需要進行標準化的處理，排除量綱的影響，離散變數還要變成dummy化進行處理。

 4，Consistent  一致性：不同資料來源的資料出現差異，以哪個為準；指標不同，含義相同，或反過來，以哪個為準。

有衝突的情況下，需要修正邏輯與口徑

這一點，就需要介入人們的主觀判斷，哪個資料來源是最靠譜的，就以哪個為準。

舉個栗子：
資料來源A中，標記手機號0061的使用者為男性，18歲；
而資料來源B中，標記手機號0061的使用者為女性，36歲；

到底以哪個為準，就需要查詢具體的原因了。

 5，Effective  有效的：處理錯誤與異常

錯誤：拼寫、屬性、編碼、格式以及依賴關係不匹配等錯誤
異常：噪音 vs 異常值 vs 離群點

資料操作的過程中，大都需要人為的介入，只有有人蔘與，就容易出錯。
比如一張門店的表裡面有城市編碼從 1-10，而城市編碼名稱的對映表中，只有2-11，那麼這種匹配就出現了錯誤。

關於異常，最簡單的方式是通過箱線圖判斷得到。
超過上下分位數 ± IQR1.5倍的點，一般即認為是異常的。

二，資料整合

在把各資料來源合併到一起的時候，也容易出現兩個問題

1，屬性冗餘，就如簡單原則中舉的例子一樣。
2，資料實體出現衝突，就如在一致性原則中的例子一樣。

三，資料變換

原始資料是可以被加工成更有意義的資料的，加工後的指標可以與目標值進行分析，看看哪種方式更有效。具體變換的方式有下面四點：

1，維度，是否需要降維，與資料規約相同
2，屬性，數值型屬性是否需要拆分成離散的更好
3，函式變換，x與y之間的關係是否有，x與log(y)之間的關係更明顯
4，聚合，原始資料與其對應的頻率、頻次、求和、平均等聚合指標相比哪種更有效

四，資料規約

個人理解，規約需要重點解決的其實是"維度災難"問題。

想象一下，我們的樣本數量是有限的，當我們不斷的擴充維度(對於離散變數dummy化以後就相當於增加了n-1個變數)，我們的變數構成空間將越來越大。這個空間內的樣本數量是不變的，這就意味著，樣本的分佈越來越稀疏。

我們取得的目前的樣本，僅相當於在這個空間中的一個超平面上的樣本點，然而隨著空間維度的增加，這個超平面的情況又如何能夠代表總體空間中的情況呢？

所以，資料處理階段我們需要降維(參見第五章)，模型生成階段我們需要篩選特徵子集(參見第四章)

主成分分析是最常用的手段，還有一些其他的演算法可以幫助我們挑選特徵，我們可以參考第五章的內容。

下一節：第1章-資料探索(2)-資料預處理之Python實現

第1章-資料探索(1)-資料預處理

簡介

正文

第1章-資料探索(3)-資料預處理之R實現

第1章-資料探索(2)-資料預處理之Python實現

第1章-資料探索(1)-資料預處理

第1章-資料探索(4)-資料的統計分析

Ajax與Comet-JavaScript高級程序設計第21章讀書筆記(1)

計算機網絡（謝希仁版）——第三章導讀（1）

計算機網絡（謝希仁版）——第四章回顧（1）

算法入門經典-第七章例題7-1 除法

JZ2440 裸機驅動第13章 LCD控制器(1)

第四章——續3.1

第3章映象--3.1 獲取映象

springboot學習第八章:統一異常，資料校驗處理

第四章棧（1）

統計學習方法-第2章-感知機(1)

《機器學習實戰》第14章學習筆記（資料約簡工具---SVD）

pathon筆記——第2章變數和簡單資料型別

SLAM從入門到放棄：SLAM十四講第十章習題（1-4）

易學筆記-第4章容器/4.1 建立容器

第八章| 2. MySQL資料庫|資料操作| 許可權管理

《推薦系統實踐》第六章利用社交網路資料

第1章-資料探索(1)-資料預處理

簡介

正文

相關推薦