1. 程式人生 > >IBM SPSS Modeler使用技巧------樣本資料的選擇

IBM SPSS Modeler使用技巧------樣本資料的選擇

在資料探勘專案中,經常會涉及到非常大的資料量,資料量太大會使得整個分析過程效率不高,這個時候,樣本資料的選擇非常重要,在IBM SPSS Modeler平臺上,可以通過【樣本】節點來實現多種不同方式的樣本資料選擇。

【樣本】節點中,可以選擇取樣方式,分別是【簡單】和【複雜】;

如果選擇【簡單】,模式可以是【包含樣本】或【丟棄樣本】,可以實現選擇記錄的前 n 條記錄、每n條選1、隨機百分比。

具體如下:

· 第一個:選擇前N條記錄。例如,如果最大樣本大小設定為 10000,則前 10000 條記錄會被選中

· n 中取 1: 每隔 n 個記錄進行一次選擇或廢棄。例如,如果 n 設為 5,則每隔五條記錄便會選中一條。

· 隨機 %:隨機抽取指定百分比的資料。例如,如果百分比設定為 20,那麼根據選擇的模式,將 20% 的資料傳遞到資料流或將其廢棄。

如果選擇【複雜】,有兩個設定我們需要注意,就是【聚類和分層】,我們通過舉例來介紹如何使用。

舉例1:在一份資料裡,有青年、中年、老年不同年齡級別的客戶,而其中老年人是較少的,為了避免隨機抽取時,老年人的客戶抽取不到,或者量更少,可以使用【分層】,使資料在青年、中年和老年三個型別中,分別抽取N%,這樣,每個型別的客戶都會抽取N%的資料。因此,分層可以按照選擇的分層維度來保持資料原來的比例。

具體操作如下:

在【樣本】節點,選擇取樣方式是【複雜】,單擊【聚類與分層】,在彈出的對話方塊中,分層方式選擇【年齡級別】,樣本單位可以選擇按【比例】或者是【計數】,這裡先選擇按比例0.5(即50%),確定後,篩選的資料就是每個不同年齡級別分別隨機抽取50%的樣本資料。

當然,如果需要,我們也可以分別給每個年齡級別抽取不同的樣本資料大小,選擇【定製】,排序方式選擇【年齡級別】,點選左下角的【讀取值】,會自動讀取【年齡級別】中對應的元素內容,在右邊的【樣本大小】,自己輸入需要抽取的樣本百分比即可,比如下圖中,抽取的樣本大小分別是:

· 老年:0.8

· 青年:0.5

· 中年:0.4

設定之後,就可以實現在老年客戶中隨機抽取80%的資料,青年客戶隨機抽取50%的資料,以及中年客戶隨機抽取40%的資料。 

舉例2:在零售行業,最經常用到的是購物籃分析,在做購物籃分析的時候,資料格式經常是這樣的格式:

如果按【簡單】的方式抽取樣本資料的話,很可能同一訂單號,有的被抽取到了,有的沒有被抽到到,那這樣會影響到購物籃分析的真實結果,因此【樣本】選項中的【複雜】抽樣裡面的【聚類】就可以解決這個問題。

我們只需要在【聚類】選項選擇【record id】,這樣抽取資料的時候,要麼包括同一【record id】的全部記錄,要麼就完全沒有這個【record id】,這樣,就可以保證購物籃分析時,同一訂單的商品資料不會丟失,購物籃分析時所體現的商品相關性不會丟失,具體設定如下圖:

如果對以上內容感興趣,可以在這裡下載30天的最新版本IBM SPSS Modeler 18.0免費試用,