【機器學習】模型訓練前夜—資料集預處理（概念+圖+實戰）

阿新 • • 發佈：2019-02-14

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。

缺失資料處理：

# 顯示資料的缺失值
import pandas as pd
from io import StringIO

csv_data = '''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,''':
# csv_data = unicode(csv_data)
df = pd.read_csv(StringIO(csv_data))
print（df）

# 顯示每列的缺失值數量
df.isnull().sum()

刪除存在缺失值的特徵或者樣本：

# 刪除資料集中包含缺失值的行
df.dropna()

# 刪除資料集中至少包含一個NAN的列，axis=1。
df.dropna(axis=1)

# 只在所有列都為NaN的地方刪除行。
df.dropna(how='all')

# 刪除沒有至少4個非nan值的行。
df.dropna(thresh=4)

# 只有當NaN出現在特定列(這裡:“C”)時，才會刪除行。
df.dropna(subset=['C'])

插值技術：處理資料缺失

最常用的插值技術：均值插補，使用相應的特徵均值來替換缺失值。

from sklearn.preprocessing import Imputer

imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
imr = imr.fit(df)
imputed_data = imr.transform(df.values)
print(df.values)

print(imputed_data)

Imputer類的fit方法：對資料集中的引數進行識別並構建相應的資料補齊模型

Imputer類的transform方法：使用剛構建的資料補齊模型對資料集中相應引數的缺失值進行補齊。

資料補齊需要保持維度相同。

處理類別資料：

類別資料分為：標稱特徵、有序特徵

標稱特徵：不具備排序的特性

有序特徵：特徵為有序的或可排序的

例子：

import pandas as pd
df = pd.DataFrame([
            ['green', 'M', 10.1, 'class1'], 
            ['red', 'L', 13.5, 'class2'], 
            ['blue', 'XL', 15.3, 'class1']])

df.columns = ['color', 'size', 'price', 'classlabel']
print(df)

有序特徵的對映：

類別字串轉整數：

size_mapping = {
           'XL': 3,
           'L': 2,
           'M': 1}

df['size'] = df['size'].map(size_mapping)
print(df)

類標編碼：

類標不是有序的

特定的字串類標，賦予的具體整數值不重要，一般以列舉的方式從0開始設定類標。

import numpy as np
class_mapping = {label:idx for idx,label in enumerate(np.unique(df['classlabel']))}
class_mapping

# 使用對映字典將類標轉為整數
df['classlabel'] = df['classlabel'].map(class_mapping)
print(df)

# 將字典鍵值對倒置，還原為原始資料
inv_class_mapping = {v: k for k, v in class_mapping.items()}
df['classlabel'] = df['classlabel'].map(inv_class_mapping)
print(df)

# 使用SKlearn的LabelEncoder類可以快捷的操作整數編碼
from sklearn.preprocessing import LabelEncoder

class_le = LabelEncoder()
y = class_le.fit_transform(df['classlabel'].values)
print (y)
class_le.inverse_transform(y)

標稱特徵上的獨熱編碼

獨熱編碼技術：建立一個新的虛擬特徵，虛擬特徵的每一列各代表標稱標稱資料的一個值。

# 使用OneHotEncoder類實現
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(categorical_features=[0])
ohe.fit_transform(X).toarray()

# 使用pandas的get_dummies實現
pd.get_dummies(df[['price', 'color', 'size']])

將資料集劃分為訓練集和測試資料集：

使用pandas，線上從UCI機器學習樣本資料庫讀取開源葡萄酒資料集。

df_wine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data', header=None)

df_wine.columns = ['Class label', 'Alcohol', 'Malic acid', 'Ash', 
'Alcalinity of ash', 'Magnesium', 'Total phenols', 
'Flavanoids', 'Nonflavanoid phenols', 'Proanthocyanins', 
'Color intensity', 'Hue', 'OD280/OD315 of diluted wines', 'Proline']

print('Class labels', np.unique(df_wine['Class label']))
df_wine.head()

# 使用SKlearn下的model_selection模組中的train_test_split函式
from sklearmodel_selection import train_test_split
X, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values

X_train, X_test, y_train, y_test = \
        train_test_split(X, y, test_size=0.3, random_state=0)

將陣列中1-13個特徵賦值給X，第一列的類標賦值給變數y。

隨機將X和y各自劃分為訓練集合測試集，

test_size=0.3表示將30%的樣本劃分到X_test 和y_test，剩餘的劃分給X_train和y_train。

劃分訓練集和測試集要儘量保留有價值的資訊。

一般的資料量的資料集劃分法為：60/40,70/30,80/20

大資料量的資料集劃分為：90/10,99/1

將特徵值縮放到相同的區間：

特徵縮放：資料預處理過程中至關重要的一步，為其保證模型的效能最佳。

將不同的特徵縮放到相同的區間：歸一化、標準化

歸一化：將特徵值縮放到[0,1]區間，最小到最大縮放的特例。

x為特定樣本，x min和x max分別為某特徵列的最小值和最大值

案例：

from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
X_train_norm = mms.fit_transform(X_train)
X_test_norm = mms.transform(X_test)

標準化：將特徵列的均值設為0，方差為1，使得特徵列的值呈標準正態分佈，易於權重更新。保持了異常值所蘊含的有用資訊，使得演算法受到這些值影響最小。

σ和μ分別為某個特徵列的均值和標準差。

案例：

from sklearn.preprocessing import StandardScaler
stdsc = StandardScaler()
X_train_std = stdsc.fit_transform(X_train)
X_test_std = stdsc.transform(X_test)

選擇有意義的特徵值

過擬合（高方差）：

模型在訓練集是的表現比測試集上好很多，過擬合於訓練資料。

模型引數對於訓練集的特定觀測值擬合得非常接近

產生的原因：建立給定訓練集上的模型過於複雜

常用降低泛化誤差的方案：

1、收集更多的訓練資料

2、正則化引入罰項

3、選擇相對較少的簡單模型

4、降低資料的維度

使用L1正則化滿足資料稀疏化：

L1降低模型複雜度

將權重的平方和用絕對值和來代替

L1正則化可以生成稀疏的特徵向量，且大多數權值為0。

通過正則化引數來增加正則化的強度，使得權值向0收縮，降低模型對訓練集的依賴程度

L2的罰項是二次的

SKlearn實現L1正則化程式碼：

from sklearn.linear_model import LogisticRegression

lr = LogisticRegression(penalty='l1', C=0.1)
lr.fit(X_train_std, y_train)
print('Training accuracy:', lr.score(X_train_std, y_train))
print('Test accuracy:', lr.score(X_test_std, y_test))

# 訓練和測試的精確度表示未出現過擬合

# 獲得截距項

lr.intercept_
lr.coef_

# 繪製正則化效果圖
import matplotlib.pyplot as plt
%matplotlib inline

fig = plt.figure()
ax = plt.subplot(111)
    
colors = ['blue', 'green', 'red', 'cyan', 
         'magenta', 'yellow', 'black', 
          'pink', 'lightgreen', 'lightblue', 
          'gray', 'indigo', 'orange']

weights, params = [], []
for c in np.arange(-4, 6):
    lr = LogisticRegression(penalty='l1', C=10**c, random_state=0)
    lr.fit(X_train_std, y_train)
    weights.append(lr.coef_[1])
    params.append(10**c)

weights = np.array(weights)

for column, color in zip(range(weights.shape[1]), colors):
    plt.plot(params, weights[:, column],
             label=df_wine.columns[column+1],
             color=color)
plt.axhline(0, color='black', linestyle='--', linewidth=3)
plt.xlim([10**(-5), 10**5])
plt.ylabel('weight coefficient')
plt.xlabel('C')
plt.xscale('log')
plt.legend(loc='upper left')
ax.legend(loc='upper center', 
          bbox_to_anchor=(1.38, 1.03),
          ncol=1, fancybox=True)
# plt.savefig('./figures/l1_path.png', dpi=300)
plt.show()

C是正則化引數的倒數。

序列特徵選擇演算法

降低模型複雜度從而解決過擬合的方法是通過特徵選擇進行降維

對未經正則化處理的模型特別有效

降維技術主要分為：特徵降維，特徵提取

序列特徵選擇演算法是一種貪婪演算法，將原始的d維特徵空間壓縮到一個k維的特徵子空間。

經典的序列特徵選擇演算法：序列後向選擇演算法（SBS）

目的：在分類效能衰減最小的約束下，降低原始特徵空間上的資料維度，提高計算效率。

SBS可以在模型面臨過擬合問題時提高模型的預測能力。

SBS演算法理念：SBS依次從特徵集合中刪除某些特徵，直到新的子特徵包含指定數量的特徵

為了確定每一步所需刪除的特徵，需要定義一個最小化的標準衡量函式。

函式準則：比較判定分類器的效能在刪除某個特定特徵前後的差異

由此可知，每一步待刪除的特徵，就是那些能夠使得函式儘可能大的特徵。

演算法步驟：

1、設k=d進行演算法初始化，d是特徵空間Xd的維度

2、定義x為滿足標準x=argmax(Xk-x)最大化特徵

3、將特徵x從特徵集中刪除：X(k-1)=Xk-x,k=k-1

4、如果k等於目標特徵數量，演算法終止，否則跳到2步。

python實現SBS演算法：

from sklearn.base import clone
from itertools import combinations
import numpy as np
from sklearn.cross_validation import train_test_split
from sklearn.metrics import accuracy_score

class SBS():
    def __init__(self, estimator, k_features, scoring=accuracy_score,
                 test_size=0.25, random_state=1):
        self.scoring = scoring
        self.estimator = clone(estimator)
        self.k_features = k_features
        self.test_size = test_size
        self.random_state = random_state

    def fit(self, X, y):
        
        X_train, X_test, y_train, y_test = \
                train_test_split(X, y, test_size=self.test_size, 
                                 random_state=self.random_state)

        dim = X_train.shape[1]
        self.indices_ = tuple(range(dim))
        self.subsets_ = [self.indices_]
        score = self._calc_score(X_train, y_train, 
                                 X_test, y_test, self.indices_)
        self.scores_ = [score]

        while dim > self.k_features:
            scores = []
            subsets = []

            for p in combinations(self.indices_, r=dim-1):
                score = self._calc_score(X_train, y_train, 
                                         X_test, y_test, p)
                scores.append(score)
                subsets.append(p)

            best = np.argmax(scores)
            self.indices_ = subsets[best]
            self.subsets_.append(self.indices_)
            dim -= 1

            self.scores_.append(scores[best])
        self.k_score_ = self.scores_[-1]

        return self

    def transform(self, X):
        return X[:, self.indices_]

    def _calc_score(self, X_train, y_train, X_test, y_test, indices):
        self.estimator.fit(X_train[:, indices], y_train)
        y_pred = self.estimator.predict(X_test[:, indices])
        score = self.scoring(y_test, y_pred)
        return score

實現SBS應用於SKlearn中KNN分類器：

%matplotlib inline
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt

knn = KNeighborsClassifier(n_neighbors=2)

# selecting features
sbs = SBS(knn, k_features=1)
sbs.fit(X_train_std, y_train)

# plotting performance of feature subsets
k_feat = [len(k) for k in sbs.subsets_]

plt.plot(k_feat, sbs.scores_, marker='o')
plt.ylim([0.7, 1.1])
plt.ylabel('Accuracy')
plt.xlabel('Number of features')
plt.grid()
plt.tight_layout()
# plt.savefig('./sbs.png', dpi=300)
plt.show()

檢視演算法正確率達到100%的特徵：

k5 = list(sbs.subsets_[8])
print(df_wine.columns[1:][k5])

驗證KNN分類器在原始測試集上的表現：

knn.fit(X_train_std, y_train)
print('Training accuracy:', knn.score(X_train_std, y_train))
print('Test accuracy:', knn.score(X_test_std, y_test))

在選定的5個特徵集看KNN效能：

knn.fit(X_train_std[:, k5], y_train)
print('Training accuracy:', knn.score(X_train_std[:, k5], y_train))
print('Test accuracy:', knn.score(X_test_std[:, k5], y_test))

當特徵數量不及葡萄酒資料集原始資料特徵數量一半時，測試集上的預測準確率提高。

SKlearn裡有許多特徵選擇演算法：基於特徵權重的遞迴後向消除演算法、基於特徵重要性的特徵選擇樹方法、單變數統計方法。

通過隨機森林判定特徵的重要性：

from sklearn.ensemble import RandomForestClassifier

feat_labels = df_wine.columns[1:]

forest = RandomForestClassifier(n_estimators=10000,
                                random_state=0,
                                n_jobs=-1)

forest.fit(X_train, y_train)
importances = forest.feature_importances_

indices = np.argsort(importances)[::-1]

for f in range(X_train.shape[1]):
    print("%2d) %-*s %f" % (f + 1, 30, 
                            feat_labels[f], 
                            importances[indices[f]]))

plt.title('Feature Importances')
plt.bar(range(X_train.shape[1]), 
        importances[indices],
        color='lightblue', 
        align='center')

plt.xticks(range(X_train.shape[1]), 
           feat_labels, rotation=90)
plt.xlim([-1, X_train.shape[1]])
plt.tight_layout()
# plt.savefig('./figures/random_forest.png', dpi=300)
plt.show()

【機器學習】模型訓練前夜—資料集預處理（概念+圖+實戰）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。缺失資料處理： # 顯示資料的缺失值 import pandas as pd from io import StringIO csv_data = '''A,B,C,D 1.0,2.0,3

【機器學習】模型的效能評價指標

混淆矩陣混淆矩陣：展示學習演算法效能的一種矩陣，一個簡單的方陣，展示一個分類器預測結果（真正，真負，假正，假負）的數量圖：使用SKlearn的confusion_matrix方法實現混淆矩陣： from sklearn.metrics import confu

【機器學習】模型評估與選擇

內容大多來自統計學習方法——李航機器學習——周志華 1. 統計學習三要素統計學習方法都是有模型、策略和演算法構成的，也就是統計學習方法由三要素構成，可以簡單地表示為：方法=模型+策略+算法方法=模型+策略+算法構建一種統計學習方法就是

【機器學習】使用Python的自然語言工具包（NLTK）對Reddit新聞標題進行情感分析

讓我們使用Reddit API獲取新聞標題並執行情感分析在我上一篇文章中，使用Python進行K-Means聚類，我們只是抓取了一些預編譯資料，但是對於這篇文章，我想更深入地瞭解一些實時資料。使用Reddit API，我們可以從各種新聞subreddit獲得成千上萬的

【機器學習】動手寫一個全連線神經網路（三）：分類

我們來用python寫一個沒有正則化的分類神經網路。傳統的分類方法有聚類，LR邏輯迴歸，傳統SVM，LSSVM等。其中LR和svm都是二分類器，可以將多個LR或者svm組合起來，做成多分類器。多分類神經網路使用softmax+cross entropy組

【機器學習】利用蟻群演算法求解旅行商（TSP）問題

如果喜歡這裡的內容，你能夠給我最大的幫助就是轉發，告訴你的朋友，鼓勵他們一起來學習。 If you like the content here, you can give me the greatest help is forwarding, tell you

【深度學習】Ubuntu16.04+tensorflow+opencv+pygame 執行FlappyBird（畫素小鳥）程式碼（4）

一，安裝 Anaconda+tensorflow 我的系統環境: Ubuntu16.04, Anaconda（python 3.6） opencv3.1 二，下載程式碼+安裝opencv

【機器學習】機器學習模型訓練與測試評估

模型訓練模型選擇對於特定任務最優建模方法的選擇或者對特定模型最佳引數的選擇交叉驗證在訓練資料集上執行模型（演算法）並且在測試資料集上測試效果，迭代更新資料模型的修改，這種方式被稱為“交叉驗證”（將資料分為訓練集和測試集），使用訓練集構建模型

【機器學習】用libsvm C++訓練SVM模型

前言：本文大水文一篇，大神請繞道。在正文之前，首先假設讀者都已經瞭解SVM（即支援向量機）模型。 1. introduction libsvm是臺灣大學林智仁(Chih-Jen Lin)教授於2001年開發的一套支援向量機的工具包，可以很方便地對資料進行分類

【機器學習】隨機森林 Random Forest 得到模型後，評估參數重要性

img eas 一個 increase 裏的 sum 示例增加機器在得出random forest 模型後，評估參數重要性 importance（）示例如下特征重要性評價標準 %IncMSE 是 increase in MSE。就是對每一個變量比如 X1

【機器學習】機器學習分類器模型評價指標機器學習分類器模型評價指標

機器學習分類器模型評價指標分類器評價指標主要有： 1，Accuracy 2，Precision 3，Recall 4，F1 score 5，ROC 曲線

【機器學習】在分類中如何處理訓練集中不平衡問題

原文地址：一隻鳥的天空，http://blog.csdn.net/heyongluoyao8/article/details/49408131 在分類中如何處理訓練集中不平衡問題在很多機器學習任務中，訓練集中可能會存在某個或某些類別下的樣本數遠大於另一些類別下的樣本數目。即類別不平衡，為了

【機器學習】基於梯度下降法的自線性迴歸模型

回顧關於梯度下降法以及線性迴歸的介紹，我們知道了：線性迴歸的損失函式為： J (

【機器學習】生成模型和判別模型

定義：生成方法由資料學習聯合概率分佈P(x, y)，然後求出條件概率分佈P(y|x)作為預測的模型。包括樸素貝葉斯，貝葉斯網路，高斯混合模型，隱馬爾科夫模型等。判別方法由資料直接學習決策函式

【機器學習】EM演算法在高斯混合模型學習中的應用

前言 EM演算法，此部落格介紹了EMEM演算法相關理論知識，看本篇部落格前先熟悉EMEM演算法。本篇部落格打算先從單個高斯分佈說起，然後推廣到多個高斯混合起來，最後給出高斯混合模型引數求解過程。單個高斯分佈假如我們有一些資料，這些資料來自同一個

【機器學習】鳶尾花資料探索

# 匯入必要的處理包 from pandas import read_csv from pandas.plotting import scatter_matrix from matplotlib import pyplot from sklearn.model_selection imp

【機器學習】最大熵模型原理小結

最大熵模型(maximum entropy model， MaxEnt)也是很典型的分類演算法了，它和邏輯迴歸類似，都是屬於對數線性分類模型。在損失函式優化的過程中，使用了和支援向量機類似的凸優化技術。而對熵的使用，讓我們想起了決策樹演算法中的ID3和C4.5演算法。理解了最

【機器學習】基於機器學習的乳腺癌預測模型

基於機器學習的乳腺癌預測模型（附Python程式碼）前提說明專案介紹匯入資料概述資料資料視覺化評估演算法實施預測程式碼參考前提說明此部落格內容為20

【機器學習】生成式對抗網路模型綜述

生成式對抗網路模型綜述摘要生成式對抗網路模型(GAN)是基於深度學習的一種強大的生成模型，可以應用於計算機視覺、自然語言處理、半監督學習等重要領域。生成式對抗網路最最直接的應用是資料的生成，而資料質量的好壞則是評判GAN成功與否的關鍵。本文介紹了GAN最初被提出時的基本思想，闡述了其一步

【機器學習】資料分析王者 CatBoost vs. Light GBM vs. XGBoost

機器學習領域的一個特點就是日新月異，在資料競賽中，一件趁手的工具對比賽結果有重要影響。boosting是一種將弱分類器組合成強分類器的方法，它包含多種演算法，如GDBT、AdaBoost、XGBoost等等。如果你參加過Kaggle之類的資料競賽，你可能聽說過XGBoost在

【機器學習】模型訓練前夜—資料集預處理（概念+圖+實戰）

缺失資料處理：

刪除存在缺失值的特徵或者樣本：

插值技術：處理資料缺失

處理類別資料：

有序特徵的對映：

類標編碼：

標稱特徵上的獨熱編碼

將資料集劃分為訓練集和測試資料集：

將特徵值縮放到相同的區間：

選擇有意義的特徵值

序列特徵選擇演算法

通過隨機森林判定特徵的重要性：

相關推薦