1. 程式人生 > >3.1資料採集(一)

3.1資料採集(一)

簡介

資料採集就是蒐集符合資料探勘研究要求的原始資料(Raw Data)。原始資料是研究者拿到的一手或者二手資源。資料採集既可以從現有、可用的無盡資料中搜集提取你想要的二手資料,也可以經過問卷調查、採訪、溝通等方式獲得一手資料。不管用哪種方法得到資料的過程,都可以叫做資料採集。

一句話解釋版本:

資料採集就是怎麼獲得原始資料,如果把資料採集看成吃飯,自己擼起袖子做飯就是用一手資料,點外賣就是用二手資料。

資料分析與挖掘體系位置

資料採集是資料探勘的基礎。資料探勘如果是建房子,資料採集就是那些磚跟水泥等等基礎材料。沒有磚,拿什麼蓋房子,總不能用空氣吧?所以,找磚、找水泥的工作就是資料採集。它是資料準備工作的第一步。

資料採集的工作中,包含著部分與樣本的知識,但是那部分我們單獨在“樣本抽取”單元講解。這裡我們只說能夠通過什麼樣的方法進行資料採集。因此,它在整個資料分析與挖掘體系中的位置如下圖所示。


資料採集的理解

前面也說了,資料收集就是準備資料探勘要用的那些資料。資料探勘,沒有數,哪來的挖掘呢?

但是我們肯定會說:世界上有那麼多的資料,我怎麼知道自己要用的資料能不能拿到?怎麼拿到?有什麼方法拿到?

資料收集的理論其實就是提供了一個方法論,或者說一個框架,它就是告訴你:有這些這些方法能夠在你不知道資料中怎麼來的時候幫到你。你不是不知道資料從哪裡來嗎?我告訴你,有這麼多的方法都能幫你拿到資料。

唯一一個需要注意的地方就是:

資料收集可以告訴你:我怎麼樣才能拿到資料。

但是,不能告訴你:你拿到的資料合不合適;他也不能告訴你:你需要什麼樣的資料。

要解決後兩個問題,你需要進行完善的專案調研,並且明確專案的需求。這些,靠的是你對業務以及模型的理解,而並非是方法論。

資料採集的方法

資料收集的方法可以分成兩類:

  1. 直接來源:一手資料
  2. 間接來源:二手資料

就像前面說的,一手資源就是拿著炒勺鍋子自己做飯。二手資源則是點個外賣,吃別人做好的飯。

我們下面分別講解一下如何用這兩種方法吃飽飯。


直接來源:一手資料

一手資料的正式版定義是:通過研究者實施的調查或實驗活動獲得的資料。

所以,要想獲得一手資料,有兩種方法:調查 或 實驗。

調查

通過調查得到的一手資料叫做調查資料。調查資料是針對社會現象的。比如說,調查現在的經濟形勢、人的心理現象、工廠效率等等。

調查的形式

調查的形式分為兩類:

  • 普查
  • 抽樣

普查是要對一個總體內部的所有個體進行調查,國家進行的人口普查就是最典型的普查形式。普查的結果是最貼近總體的真實表現的,是無偏見(Unbias)的估測。但是普查的成本太大,少有專案採用這種方式。

抽樣則在生活中被應用的更加廣泛。由於資料分析挖掘涉及的總體資料量一般很大,如果要做普查,沒有大規模的時間與金錢是幾乎不可能的。所以,我們會從總體中抽取部分有代表性的個體調查,並用這部分個體的資料去反映整體,這就是抽樣。

調查的方法

不管是用普查還是抽樣的方法,資料採集都習慣用下面三種方式之一:

  • 自填式:填寫調查問卷(電子/書面)。
  • 面訪式:面對面採訪。
  • 電話式:電話聯絡。

具體的設計問卷的方法、面訪的技巧或者電話的提問設計都在後面慢慢講解。這裡只是概括性的介紹方法。

實驗

通過實驗得到的一手資料叫做實驗資料。調查資料是針對自然現象的。比如說,植物背光生長的快慢、小白鼠對食物的記憶規律等等。

實驗的方法

實驗方法需要研究者真正設計實驗,並記錄結果、整合為資料,服務於後期的資料分析與挖掘工作。

實驗的設計需要滿足一個大原則:有實驗組與對照組。實驗組是隻有要研究的變數發生變化的組;對照組是保持變數不變的組。這樣,通過控制變數的方法,能得到觀測資料。

間接來源:二手資料

二手資料的正式版定義是:資料原本已經存在,是由別人收集的,使用者通過重新加工或整理得到的資料。

所以,要想獲得二手資料,有兩種方法:系統內部採集 或 系統外部採集。

系統內部採集

系統內部採集資料是我在工作中最常見的資料採集方法。要進行資料分析的公司肯定會有自己的資料,這些資料一般會儲存在資料庫中,我有過接觸的資料庫例如Oracle與Teradata。在資料倉庫中,會儲存公司內部的生產資料,他們就是將公司的業務、渠道、成本、收益等生產過程數字化並固定存放在機器中。資料探勘師可以通過SQL語言提取想要的資料表,並進行資料的收集。

系統內部資料一般都與企業的生產相關,涉及到使用者資訊的保密與商業機密等問題。所以一般都是有專案或者有研究課題的時候才能夠獲取。

系統外部採集

系統外部採集的資料是更加巨集觀、更加公開的資料。這些資料大部分不是針對某一家公司自己的運營與生產情況,而是更加偏重於社會的外部環境以及行業的經濟形勢。

下面這些都是系統外部採集的常用渠道:

  • 統計部門或政府的公開資料、統計年鑑
  • 調查機構、行會、經濟資訊中心釋出的資料情報
  • 專業期刊
  • 圖書
  • 博覽會
  • 網際網路

系統外部採集資料的源頭眾多,採集方法也有很多,手工處理excel或者網路爬蟲都是可選的方法。