3.1資料採集(一)
簡介
資料採集就是蒐集符合資料探勘研究要求的原始資料(Raw Data)。原始資料是研究者拿到的一手或者二手資源。資料採集既可以從現有、可用的無盡資料中搜集提取你想要的二手資料,也可以經過問卷調查、採訪、溝通等方式獲得一手資料。不管用哪種方法得到資料的過程,都可以叫做資料採集。
一句話解釋版本:
資料採集就是怎麼獲得原始資料,如果把資料採集看成吃飯,自己擼起袖子做飯就是用一手資料,點外賣就是用二手資料。
資料分析與挖掘體系位置
資料採集是資料探勘的基礎。資料探勘如果是建房子,資料採集就是那些磚跟水泥等等基礎材料。沒有磚,拿什麼蓋房子,總不能用空氣吧?所以,找磚、找水泥的工作就是資料採集。它是資料準備工作的第一步。
資料採集的工作中,包含著部分與樣本的知識,但是那部分我們單獨在“樣本抽取”單元講解。這裡我們只說能夠通過什麼樣的方法進行資料採集。因此,它在整個資料分析與挖掘體系中的位置如下圖所示。
資料採集的理解
前面也說了,資料收集就是準備資料探勘要用的那些資料。資料探勘,沒有數,哪來的挖掘呢?
但是我們肯定會說:世界上有那麼多的資料,我怎麼知道自己要用的資料能不能拿到?怎麼拿到?有什麼方法拿到?
資料收集的理論其實就是提供了一個方法論,或者說一個框架,它就是告訴你:有這些這些方法能夠在你不知道資料中怎麼來的時候幫到你。你不是不知道資料從哪裡來嗎?我告訴你,有這麼多的方法都能幫你拿到資料。
唯一一個需要注意的地方就是:
資料收集可以告訴你:我怎麼樣才能拿到資料。
但是,不能告訴你:你拿到的資料合不合適;他也不能告訴你:你需要什麼樣的資料。
要解決後兩個問題,你需要進行完善的專案調研,並且明確專案的需求。這些,靠的是你對業務以及模型的理解,而並非是方法論。
資料採集的方法
資料收集的方法可以分成兩類:
- 直接來源:一手資料
- 間接來源:二手資料
就像前面說的,一手資源就是拿著炒勺鍋子自己做飯。二手資源則是點個外賣,吃別人做好的飯。
我們下面分別講解一下如何用這兩種方法吃飽飯。
直接來源:一手資料
一手資料的正式版定義是:通過研究者實施的調查或實驗活動獲得的資料。
所以,要想獲得一手資料,有兩種方法:調查 或 實驗。
調查
通過調查得到的一手資料叫做調查資料。調查資料是針對社會現象的。比如說,調查現在的經濟形勢、人的心理現象、工廠效率等等。
調查的形式
調查的形式分為兩類:
- 普查
- 抽樣
普查是要對一個總體內部的所有個體進行調查,國家進行的人口普查就是最典型的普查形式。普查的結果是最貼近總體的真實表現的,是無偏見(Unbias)的估測。但是普查的成本太大,少有專案採用這種方式。
抽樣則在生活中被應用的更加廣泛。由於資料分析挖掘涉及的總體資料量一般很大,如果要做普查,沒有大規模的時間與金錢是幾乎不可能的。所以,我們會從總體中抽取部分有代表性的個體調查,並用這部分個體的資料去反映整體,這就是抽樣。
調查的方法
不管是用普查還是抽樣的方法,資料採集都習慣用下面三種方式之一:
- 自填式:填寫調查問卷(電子/書面)。
- 面訪式:面對面採訪。
- 電話式:電話聯絡。
具體的設計問卷的方法、面訪的技巧或者電話的提問設計都在後面慢慢講解。這裡只是概括性的介紹方法。
實驗
通過實驗得到的一手資料叫做實驗資料。調查資料是針對自然現象的。比如說,植物背光生長的快慢、小白鼠對食物的記憶規律等等。
實驗的方法
實驗方法需要研究者真正設計實驗,並記錄結果、整合為資料,服務於後期的資料分析與挖掘工作。
實驗的設計需要滿足一個大原則:有實驗組與對照組。實驗組是隻有要研究的變數發生變化的組;對照組是保持變數不變的組。這樣,通過控制變數的方法,能得到觀測資料。
間接來源:二手資料
二手資料的正式版定義是:資料原本已經存在,是由別人收集的,使用者通過重新加工或整理得到的資料。
所以,要想獲得二手資料,有兩種方法:系統內部採集 或 系統外部採集。
系統內部採集
系統內部採集資料是我在工作中最常見的資料採集方法。要進行資料分析的公司肯定會有自己的資料,這些資料一般會儲存在資料庫中,我有過接觸的資料庫例如Oracle與Teradata。在資料倉庫中,會儲存公司內部的生產資料,他們就是將公司的業務、渠道、成本、收益等生產過程數字化並固定存放在機器中。資料探勘師可以通過SQL語言提取想要的資料表,並進行資料的收集。
系統內部資料一般都與企業的生產相關,涉及到使用者資訊的保密與商業機密等問題。所以一般都是有專案或者有研究課題的時候才能夠獲取。
系統外部採集
系統外部採集的資料是更加巨集觀、更加公開的資料。這些資料大部分不是針對某一家公司自己的運營與生產情況,而是更加偏重於社會的外部環境以及行業的經濟形勢。
下面這些都是系統外部採集的常用渠道:
- 統計部門或政府的公開資料、統計年鑑
- 調查機構、行會、經濟資訊中心釋出的資料情報
- 專業期刊
- 圖書
- 博覽會
- 網際網路
系統外部採集資料的源頭眾多,採集方法也有很多,手工處理excel或者網路爬蟲都是可選的方法。