資料分組-可視分箱
資料分組,根據分析目的將數值型資料進行等距或非等距分組,這個過程也稱為資料離散化,一般用於消費分佈,收入分佈,年齡分佈等。
在excel中,使用vlookup函式的模糊匹配功能進行資料分組操作,非常方便。那麼在spss中介紹一個功能叫做“可視分箱”。這裡以“使用者明細”資料為例瞭解一下使用者的年齡分佈特徵。,"使用者明細"資料中已經有“年齡”變數,現在需要將“年齡”變數進行分組操作,得到一個新的變數“年齡段”。
第一步:開啟“使用者明細”資料檔案,單擊【轉換】-【可視分箱】,彈出【可視分箱】第一步對話方塊。
第二步:將“年齡”變數移入“要分箱的變數”框中。單擊【繼續】按鈕,彈出【可視分箱】第二部對話方塊
第三步:在彈出的【可視分箱】第二步對話方塊中,在【分箱化變數】欄中輸入“年齡段”,單擊【生成分割點】
第四步:彈出【生成分割點】對話方塊,在【第一個分割點位置】欄中輸入“20”,在【分割點數】欄中輸入“4”,在【寬度】欄中輸入“5”,單擊【應用】按鈕,返回【可視分箱】第二步對話方塊。
在【可視分箱】第二部對話方塊中,單擊【生成標籤】按鈕,將生成對應的區間範圍標籤。
單擊【確定】按鈕既可以得到“年齡段”變數。
擴充套件:在【生成分割點】對話方塊中,為何分別設定20、4、5三個引數?
這個要從【可視分箱】第二步對話方塊說起,對話方塊中給出了一個年齡分佈預覽圖,我們觀察這個圖,最小值是16,最大值是78,年齡主要集中在20-35之間,我們可以把第一個分割點定在20,組距定為5,這樣20-35之間按組距5進行分組可以得到3個組,在加上前後2個組,就是5個組,4個分割點,分割點大致就是這樣子分的沒有絕對的標準,只要能達到解決問題的目的即可。
以上分組可以算是等距分組,那如果進行不等距分組,該如何操作?
如果需要不等距分組,則可以在【可視分箱】第二步對話方塊中【網格】中直接填入自定義的分割點,例如分別填入“20”、“25”、“35”,第四個“高”會自動生成,然後點選【生成標籤】如下圖: