基於sklearn的分類器實戰

阿新 • • 發佈：2019-05-25

已遷移到我新部落格，閱讀體驗更佳基於sklearn的分類器實戰
完整程式碼實現見github：click me

一、實驗說明

1.1 任務描述

1.2 資料說明

一共有十個資料集，資料集中的資料屬性有全部是離散型的，有全部是連續型的，也有離散與連續混合型的。通過對各個資料集的瀏覽，總結出各個資料集的一些基本資訊如下：

連續型資料集: 
1. diabets(4:8d-2c)
2. mozilla4(6:5d-2c)
3. pc1(7:21d-2c)
4. pc5(8:38d-2c)
5. waveform-5000(9:40d-3c)
離散型資料集:
1. breast-w(0:9d-2c-?)
離散-連續混合型資料集:
1. colic(1:22d-2c-?)
2. credit-a(2:15d-2c-?)
3. credit-g(3:20d-2c)
4. hepatitis(少量離散屬性)(5:19d-2c-?)

舉一個例子說明，colic(1:22d-2c-?)對應colic這個資料集，冒號前面的1表示人工標註的資料集序號(在程式碼實現時我是用序號來對映資料集的)，22d表示資料集中包含22個屬性，2c表示資料集共有3種類別，'?'表示該資料集中含有缺失值，在對資料處理前需要注意。

二、資料預處理

由於提供的資料集檔案格式是weka的.arff檔案，可以直接匯入到weka中選擇各類演算法模型進行分析，非常簡便。但是我沒有藉助weka而是使用sklearn來對資料集進行分析的，這樣靈活性更大一點。所以首先需要了解.arff的資料組織形式與結構，然後使用numpy讀取到二維陣列中。

具體做法是過濾掉.arff中'%'開頭的註釋，對於'@'開頭的標籤，只關心'@attribute'後面跟著的屬性名與屬性型別，如果屬性型別是以'{}'圍起來的離散型屬性，就將這些離散型屬性對映到0，1，2......，後面讀取到這一列屬性的資料時直接用建好的對映將字串對映到數字。除此之外就是資料內容了,讀完一個數據集的內容之後還需要檢測該資料集中是否包含缺失值，這個使用numpy的布林型索引很容易做到。如果包含缺失值，則統計缺失值這一行所屬類別中所有非缺失資料在缺失屬性上各個值的頻次，然後用出現頻次最高的值來替換缺失值，這就完成對缺失值的填補。具體實現可以參見preprocess.py模組中fill_miss函式。

三、程式碼設計與實現

實驗環境:

python 3.6.7

configparser 3.7.4

scikit-learn 0.20.2

numpy 1.15.4

matplotlib 3.0.3

各個分類器都要用到的幾個模組在這裡做一個簡要說明。

交叉驗證: 使用sklearn.model_selection.StratifiedKFold對資料作分層的交叉切分，分類器在多組切分的資料上進行訓練和預測
AUC效能指標: 使用sklearn.metrics.roc_auc_score計算AUC值，AUC計算對多類(二類以上)資料屬性還需提前轉換成one hot編碼，使用了sklearn,preprocessing.label_binarize來實現，對於多分類問題選擇micro-average

資料標準化: 使用sklearn.preprocessing.StandardScaler來對資料進行歸一標準化，實際上就是z分數