想不想了解如何用Python快速搭建深度神經網路，完成資料分類任務？本文一步步為你展示這一過程，讓你初步領略深度學習模型的強大和易用。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

（由於微信公眾號外部連結的限制，文中的部分連結可能無法正確開啟。如有需要，請點選文末的“閱讀原文”按鈕，訪問可以正常顯示外鏈的版本。）

煩惱

作為一名資料分析師，你來到這家跨國銀行工作已經半年了。

今天上午，老闆把你叫到辦公室，面色凝重。

你心裡直打鼓，以為自己捅了什麼簍子。幸好老闆的話讓你很快打消了顧慮。

他發愁，是因為最近歐洲區的客戶流失嚴重，許多客戶都跑到了競爭對手那裡接受服務了。老闆問你該怎麼辦？

你脫口而出“做好客戶關係管理啊！”

老闆看了你一眼，緩慢地說“我們想知道哪些客戶最可能在近期流失”。

沒錯，在有魚的地方釣魚，才是上策。

你明白了自己的任務——通過資料鎖定即將流失的客戶。這個工作，確實是你這個資料分析師分內的事兒。

你很慶幸，這半年做了很多的資料動態採集和整理工作，使得你手頭就有一個比較完備的客戶資料集。

下面你需要做的，就是如何從資料中“沙裡淘金”，找到那些最可能流失的客戶。

可是，該怎麼做呢？

你拿出歐洲區客戶的資料，端詳起來。

0?wx_fmt=png

客戶主要分佈在法國、德國和西班牙。

你手裡掌握的資訊，包括他們的年齡、性別、信用、辦卡資訊等。客戶是否已流失的資訊在最後一列（Exited）。

怎麼用這些資料來判斷顧客是否會流失呢？

以你的專業素養，很容易就判斷出這是一個分類問題，屬於機器學習中的監督式學習。但是，你之前並沒有做過實際專案，該如何著手呢？

別發愁，我一步步給你演示如何用Python和深度神經網路（或者叫“深度學習”）來完成這個分類任務，幫你鎖定那些即將流失的客戶。

環境

工欲善其事，必先利其器。我們先來安裝和搭建環境。

首先是安裝Python。

請到這個網址下載Anaconda的最新版本。

0?wx_fmt=png

請選擇左側的Python 3.6版本下載安裝。

其次是新建資料夾，起名為demo-customer-churn-ann，並且從這個連結下載資料，放到該資料夾下。

（注：樣例資料來自於匿名化處理後的真實資料集，下載自superdatascience官網。）

開啟終端（或者命令列工具），進入demo-customer-churn-ann目錄，執行以下命令：

jupyter notebook

瀏覽器中會顯示如下介面：

0?wx_fmt=png

點選介面右上方的New按鈕，新建一個Python 3 Notebook，起名為customer-churn-ann。

0?wx_fmt=png

準備工作結束，下面我們開始清理資料。

清理

首先，讀入資料清理最常用的pandas和numpy包。

import numpy as npimport pandas as pd

從customer_churn.csv裡讀入資料：

df = pd.read_csv('customer_churn.csv')

看看讀入效果如何：

df.head()

這裡我們使用了head()函式，只顯示前5行。

0?wx_fmt=png

可以看到，資料完整無誤讀入。但是並非所有的列都對我們預測使用者流失有作用。我們一一甄別一下：

RowNumber：行號，這個肯定沒用，刪除
CustomerID：使用者編號，這個是順序發放的，刪除
Surname：使用者姓名，對流失沒有影響，刪除
CreditScore：信用分數，這個很重要，保留
Geography：使用者所在國家/地區，這個有影響，保留
Gender：使用者性別，可能有影響，保留
Age：年齡，影響很大，年輕人更容易切換銀行，保留
Tenure：當了本銀行多少年使用者，很重要，保留
Balance：存貸款情況，很重要，保留
NumOfProducts：使用產品數量，很重要，保留
HasCrCard：是否有本行信用卡，很重要，保留
IsActiveMember：是否活躍使用者，很重要，保留
EstimatedSalary：估計收入，很重要，保留
Exited：是否已流失，這將作為我們的標籤資料

上述資料列甄別過程，就叫做“特徵工程”（Feature Engineering），這是機器學習裡面最常用的資料預處理方法。如果我們的資料量足夠大，機器學習模型足夠複雜，是可以跳過這一步的。但是由於我們的資料只有10000條，還需要手動篩選特徵。

選定了特徵之後，我們來生成特徵矩陣X，把剛才我們決定保留的特徵都寫進來。

X = df.loc[:,['CreditScore', 'Geography', 'Gender', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'HasCrCard', 'IsActiveMember', 'EstimatedSalary']]

看看特徵矩陣的前幾行：

X.head()

顯示結果如下：

0?wx_fmt=jpeg

特徵矩陣構建準確無誤，下面我們構建目標資料y，也就是使用者是否流失。

y = df.Exited![2017-11-19_19-2-2_snapshots-01.jpg](http://upload-images.jianshu.io/upload_images/64542-a15e6d0d91c8b28e.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

y.head()

0    1
1    0
2    1
3    0
4    0
Name: Exited, dtype: int64

此時我們需要的資料基本上齊全了。但是我們發現其中有幾列資料還不符合我們的要求。

要做機器學習，只能給機器提供數值，而不能是字串。可是看看我們的特徵矩陣：

X.head()

0?wx_fmt=jpeg

顯然其中的Geography和Gender兩項資料都不符合要求。它們都是分類資料。我們需要做轉換，把它們變成數值。

在Scikit-learn工具包裡面，專門提供了方便的工具LabelEncoder，讓我們可以方便地將類別資訊變成數值。

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder1 = LabelEncoder()
X.Geography= labelencoder1.fit_transform(X.Geography)
labelencoder2 = LabelEncoder()
X.Gender = labelencoder2.fit_transform(X.Gender)

我們需要轉換兩列，所以建立了兩個不同的labelencoder。轉換的函式叫做fit_transform。

經過轉換，此時我們再來看看特徵矩陣的樣子：

X.head()

0?wx_fmt=jpeg

顯然，Geography和Gender這兩列都從原先描述類別的字串，變成了數字。

這樣是不是就完事大吉了呢？

不對，Gender還好說，只有兩種取值方式，要麼是男，要麼是女。我們可以把“是男性”定義為1，那麼女性就取值為0。兩種取值只是描述類別不同，沒有歧義。

而Geography就不同了。因為資料集裡面可能的國家地區取值有3種，所以就轉換成了0（法國）、1（德國）、2（西班牙）。問題是，這三者之間真的有序列（大小）關係嗎？

答案自然是否定的。我們其實還是打算用數值描述分類而已。但是取值有數量的序列差異，就會給機器帶來歧義。它並不清楚不同的取值只是某個國家的程式碼，可能會把這種大小關係帶入模型計算，從而產生錯誤的結果。

解決這個問題，我們就需要引入OneHotEncoder。它也是Scikit-learn提供的一個類，可以幫助我們把類別的取值轉變為多個變數組合表示。

咱們這個資料集裡，可以把3個國家分別用3個數字組合來表示。例如法國從原先的0，變成(1, 0, 0)，德國從1變成(0, 1, 0)，而西班牙從2變成(0, 0, 1)。

這樣，再也不會出現0和1之外的數字來描述類別，從而避免機器產生誤會，錯把類別數字當成大小來計算了。

特徵矩陣裡面，我們只需要轉換國別這一列。因為它在第1列的位置（從0開始計數），因而categorical_features只填寫它的位置資訊。

onehotencoder = OneHotEncoder(categorical_features = [1])
X = onehotencoder.fit_transform(X).toarray()

這時候，我們的特徵矩陣資料框就被轉換成了一個數組。注意所有被OneHotEncoder轉換的列會排在最前面，然後才是那些保持原樣的資料列。

我們只看轉換後的第一行：

X[0]

array([  1.00000000e+00,   0.00000000e+00,   0.00000000e+00,
         6.19000000e+02,   0.00000000e+00,   4.20000000e+01,
         2.00000000e+00,   0.00000000e+00,   1.00000000e+00,
         1.00000000e+00,   1.00000000e+00,   1.01348880e+05])

這樣，總算轉換完畢了吧？

沒有。

因為本例中，OneHotEncoder轉換出來的3列數字，實際上是不獨立的。給定其中兩列的資訊，你自己都可以計算出其中的第3列取值。

好比說，某一行的前兩列數字是(0, 0)，那麼第三列肯定是1。因為這是轉換規則決定的。3列裡只能有1個是1，其餘都是0。

如果你做過多元線性迴歸，應該知道這種情況下，我們是需要去掉其中一列，才能繼續分析的。不然會落入“虛擬變數陷阱”（dummy variable trap）。

我們刪掉第0列，避免掉進坑裡。

X = np.delete(X, [0], 1)

再次列印第一行：

X[0]

array([  0.00000000e+00,   0.00000000e+00,   6.19000000e+02,
         0.00000000e+00,   4.20000000e+01,   2.00000000e+00,
         0.00000000e+00,   1.00000000e+00,   1.00000000e+00,
         1.00000000e+00,   1.01348880e+05])

檢查完畢，現在咱們的特徵矩陣處理基本完成。

但是監督式學習，最重要的是有標籤(label)資料。本例中的標籤就是使用者是否流失。我們目前的標籤資料框，是這個樣子的。

y.head()

0    1
1    0
2    1
3    0
4    0
Name: Exited, dtype: int64

它是一個行向量，我們需要把它先轉換成為列向量。你可以想象成把它“豎過來”。

y = y[:, np.newaxis]
y

array([[1],
       [0],
       [1],
       ...,
       [1],
       [1],
       [0]])

這樣在後面訓練的時候，他就可以和前面的特徵矩陣一一對應來操作計算了。

既然標籤代表了類別，我們也把它用OneHotEncoder轉換，這樣方便我們後面做分類學習。

onehotencoder = OneHotEncoder()
y = onehotencoder.fit_transform(y).toarray()

此時的標籤變成兩列資料，一列代表顧客存留，一列代表顧客流失。

array([[ 0.,  1.],
       [ 1.,  0.],
       [ 0.,  1.],
       ...,
       [ 0.,  1.],
       [ 0.,  1.],
       [ 1.,  0.]])

總體的資料已經齊全了。但是我們不能把它們都用來訓練。

這就好像老師不應該把考試題目拿來給學生做作業和練習一樣。只有考學生沒見過的題，才能區分學生是掌握了正確的解題方法，還是死記硬背了作業答案。

我們拿出20%的資料，放在一邊，等著用來做測試。其餘8000條資料用來訓練機器學習模型。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

我們看看訓練集的長度：

len(X_train)

再看看測試集的長度：

len(X_test)

確認無誤。

是不是可以開始機器學習了？

可以，但是下面這一步也很關鍵。我們需要把資料進行標準化處理。因為原先每一列數字的取值範圍都各不相同，因此有的列方差要遠遠大於其他列。這樣對機器來說，也是很困擾的。資料的標準化處理，可以在保持列內資料多樣性的同時，儘量減少不同類別之間差異的影響，可以讓機器公平對待全部特徵。

我們呼叫Scikit-learn的StandardScaler類來完成這一過程。

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

注意，我們只對特徵矩陣做標準化，標籤是不能動的。另外訓練集和測試集需要按照統一的標準變化。所以你看，訓練集上，我們用了fit_transform函式，先擬合後轉換；而在測試集上，我們直接用訓練集擬合的結果，只做轉換。

X_train

array([[-0.5698444 ,  1.74309049,  0.16958176, ...,  0.64259497,
        -1.03227043,  1.10643166],
       [ 1.75486502, -0.57369368, -2.30455945, ...,  0.64259497,
         0.9687384 , -0.74866447],
       [-0.5698444 , -0.57369368, -1.19119591, ...,  0.64259497,
        -1.03227043,  1.48533467],
       ...,
       [-0.5698444 , -0.57369368,  0.9015152 , ...,  0.64259497,
        -1.03227043,  1.41231994],
       [-0.5698444 ,  1.74309049, -0.62420521, ...,  0.64259497,
         0.9687384 ,  0.84432121],
       [ 1.75486502, -0.57369368, -0.28401079, ...,  0.64259497,
        -1.03227043,  0.32472465]])

你會發現，許多列的方差比原先小得多。機器學習起來，會更加方便。

資料清理和轉換工作至此完成。

決策樹

如果讀過我的《貸還是不貸：如何用Python和機器學習幫你決策？》一文，你應該有一種感覺——這個問題和貸款審批決策很像啊！既然在該文中，決策樹很好使，我們繼續用決策樹不就好了？

好的，我們先測試一下經典機器學習演算法表現如何。

從Scikit-learn中，讀入決策樹工具。然後擬合訓練集資料。

from sklearn import tree
clf = tree.DecisionTreeClassifier()
clf = clf.fit(X_train, y_train)

然後，利用我們建立的決策樹模型做出預測。

y_pred = clf.predict(X_test)

列印預測結果：

y_pred

array([[ 1.,  0.],
       [ 0.,  1.],
       [ 1.,  0.],
       ...,
       [ 1.,  0.],
       [ 1.,  0.],
       [ 0.,  1.]])

這樣看不出來什麼。讓我們呼叫Scikit-learn的classification_report模組，生成分析報告。

from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

             precision    recall  f1-score   support

          0       0.89      0.86      0.87      1595
          1       0.51      0.58      0.54       405

avg / total       0.81      0.80      0.81      2000

經檢測，決策樹在咱們的資料集上，表現得還是不錯的。總體的準確率為0.81，召回率為0.80，f1分數為0.81，已經很高了。對10個客戶做流失可能性判斷，它有8次都能判斷正確。

但是，這樣是否足夠？

我們或許可以調整決策樹的引數做優化，嘗試改進預測結果。

或者我們可以採用深度學習。

深度

深度學習的使用場景，往往是因為原有的模型經典機器學習模型過於簡單，無法把握複雜資料特性。

我不準備給你講一堆數學公式，咱們動手做個實驗。

請你開啟這個網址。

你會看到如下圖所示的深度學習遊樂場：

0?wx_fmt=png

右側的圖形，裡面是藍色資料，外圈是黃色資料。你的任務就是要用模型分類兩種不同資料。

你說那還不容易？我一眼就看出來了。

你看出來沒有用。通過你的設定，讓機器也能正確區分，才算數。

圖中你看到許多加減號。咱們就通過操縱它們來玩兒一玩兒模型。

首先，點圖中部上方的”2 HIDDEN LAYERS”左側減號，把中間隱藏層數降低為1。

0?wx_fmt=png

然後，點選”2 neurons”上面的減號，把神經元數量減少為1。

把頁面上方的Activation函式下拉框開啟，選擇“Sigmoid”。

現在的模型，其實就是經典的邏輯迴歸（Logistic Regression）。

0?wx_fmt=png

點選左上方的執行按鈕，我們看看執行效果。

0?wx_fmt=png

由於模型過於簡單，所以機器絞盡腦汁，試圖用一條直線切分二維平面上的兩類節點。

損失(loss)居高不下。訓練集和測試集損失都在0.4左右，顯然不符合我們的分類需求。

下面我們試試增加層數和神經元數量。這次點選加號，把隱藏層數加回到2，兩層神經元數量都取2。

0?wx_fmt=png

再次點選執行。

經過一段時間，結果穩定了下來，你發現這次電腦用了兩條線，把平面切分成了3部分。

0?wx_fmt=png

測試集損失下降到了0.25左右，而訓練集損失更是降低到了0.2以下。

模型複雜了，效果似乎更好一些。

再接再厲，我們把第一個隱藏層的神經元數量增加為4看看。

0?wx_fmt=png

點選執行，不一會兒有趣的事情就發生了。

0?wx_fmt=png

機器用一條近乎完美的曲線把平面分成了內外兩個部分。測試集和訓練集損失都極速下降，訓練集損失甚至接近於0。

這告訴我們，許多時候模型過於簡單帶來的問題，可以通過加深隱藏層次、增加神經元的方法提升模型複雜度，加以改進。

目前流行的劃分方法，是用隱藏層的數量多少來區分是否“深度”。當神經網路中隱藏層數量達到3層以上時，就被稱為“深度神經網路”，或者“深度學習”。

久聞大名的深度學習，原來就是這麼簡單。

如果有時間的話，建議你自己在這個遊樂場裡多動手玩兒一玩兒。你會很快對神經網路和深度學習有個感性認識。

框架

遊樂場背後使用的引擎，就是Google的深度學習框架Tensorflow。

所謂框架，就是別人幫你構造好的基礎軟體應用。你可以通過呼叫它們，避免自己重複發明輪子，大幅度節省時間，提升效率。

支援Python語言的深度學習的框架有很多，除了Tensorflow外，還有PyTorch, Theano和MXNet等。

我給你的建議是，找到一個你喜歡的軟體包，深入學習使用，不斷實踐來提升自己的技能。千萬不要跟別人爭論哪個深度學習框架更好。一來蘿蔔白菜各有所愛，每個人都有自己的偏好；二來深度學習的江湖水很深，言多有失。說錯了話，別的門派可能會不高興喲。

我比較喜歡Tensorflow。但是Tensorflow本身是個底層庫。雖然隨著版本的更迭，介面越來越易用。但是對初學者來說，許多細節依然有些過於瑣碎，不容易掌握。

初學者的耐心有限，挫折過多容易放棄。

幸好，還有幾個高度抽象框架，是建立在Tensorflow之上的。如果你的任務是應用現成的深度學習模型，那麼這些框架會給你帶來非常大的便利。

這些框架包括Keras, TensorLayer等。咱們今天將要使用的，叫做TFlearn。

它的特點，就是長得很像Scikit-learn。這樣如果你熟悉經典機器學習模型，學起來會特別輕鬆省力。

實戰

閒話就說這麼多，下面咱們繼續寫程式碼吧。

寫程式碼之前，請回到終端下，執行以下命令，安裝幾個軟體包：

pip install tensorflow
pip install tflearn

執行完畢後，回到Notebook裡。

我們呼叫tflearn框架。

import tflearn

然後，我們開始搭積木一樣，搭神經網路層。

首先是輸入層。

net = tflearn.input_data(shape=[None, 11])

注意這裡的寫法，因為我們輸入的資料，是特徵矩陣。而經過我們處理後，特徵矩陣現在有11列，因此shape的第二項寫11。

shape的第一項，None，指的是我們要輸入的特徵矩陣行數。因為我們現在是搭建模型，後面特徵矩陣有可能一次輸入，有可能分成組塊輸入，長度可大可小，無法事先確定。所以這裡填None。tflearn會在我們實際執行訓練的時候，自己讀入特徵矩陣的尺寸，來處理這個數值。

下面我們搭建隱藏層。這裡我們要使用深度學習，搭建3層。

net = tflearn.fully_connected(net, 6, activation='relu')
net = tflearn.fully_connected(net, 6, activation='relu')
net = tflearn.fully_connected(net, 6, activation='relu')

activation剛才在深度學習遊樂場裡面我們遇到過，代表啟用函式。如果沒有它，所有的輸入輸出都是線性關係。

Relu函式是啟用函式的一種。它大概長這個樣子。

0?wx_fmt=png

如果你想了解啟用函式的更多知識，請參考後文的學習資源部分。

隱藏層裡，每一層我們都設定了6個神經元。其實至今為之，也不存在最優神經元數量的計算公式。工程界的一種做法，是把輸入層的神經元數量，加上輸出層神經元數量，除以2取整。咱們這裡就是用的這種方法，得出6個。

搭好了3箇中間隱藏層，下面我們來搭建輸出層。

net = tflearn.fully_connected(net, 2, activation='softmax')
net = tflearn.regression(net)

這裡我們用兩個神經元做輸出，並且說明使用迴歸方法。輸出層選用的啟用函式為softmax。處理分類任務的時候，softmax比較合適。它會告訴我們每一類的可能性，其中數值最高的，可以作為我們的分類結果。

積木搭完了，下面我們告訴TFlearn，以剛剛搭建的結構，生成模型。

model = tflearn.DNN(net)

有了模型，我們就可以使用擬合功能了。你看是不是跟Scikit-learn的使用方法很相似呢？

model.fit(X_train, y_train, n_epoch=30, batch_size=32, show_metric=True)

注意這裡多了幾個引數，我們來解釋一下。

n_epoch：資料訓練幾個輪次。
batch_size：每一次輸入給模型的資料行數。
show_metric：訓練過程中要不要列印結果。

以下就是電腦輸出的最終訓練結果。其實中間執行過程看著更激動人心，你自己試一下就知道了。

Training Step: 7499  | total loss: [1m[32m0.39757[0m[0m | time: 0.656s
| Adam | epoch: 030 | loss: 0.39757 - acc: 0.8493 -- iter: 7968/8000
Training Step: 7500  | total loss: [1m[32m0.40385[0m[0m | time: 0.659s
| Adam | epoch: 030 | loss: 0.40385 - acc: 0.8487 -- iter: 8000/8000
--

我們看到訓練集的損失(loss)大概為0.4左右。

開啟終端，我們輸入

tensorboard --logdir=/tmp/tflearn_logs/

然後在瀏覽器裡輸入http://localhost:6006/

可以看到如下介面：

0?wx_fmt=png

這是模型訓練過程的視覺化圖形，可以看到準確度的攀升和損失降低的曲線。

開啟GRAPHS標籤頁，我們可以檢視神經網路的結構圖形。

0?wx_fmt=png

我們搭積木的過程，在此處一目瞭然。

如何用Python和深度神經網路發現即將流失的客戶？

煩惱

環境

清理

決策樹

深度

框架

實戰

如何用Python和深度神經網路發現即將流失的客戶？

如何利用Python和深度神經網路鎖定即將流失的客戶？業績過十萬！

如何用Python和深度神經網路識別影象？

Python和深度神經網路識別影象

如何用Python和深度神經網路尋找近似圖片？

使用python實現深度神經網路 1

使用python實現深度神經網路 3

使用python實現深度神經網路 5

用spark訓練深度神經網路

[Python人工智慧] 四.神經網路和深度學習入門知識

AlphaGo論文的譯文，用深度神經網路和樹搜尋征服圍棋：Mastering the game of Go with deep neural networks and tree search

迴圈神經網路教程第四部分-用Python和Theano實現GRU/LSTM迴圈神經網路

迴圈神經網路教程第四部分用Python 和 Theano實現GRU/LSTM RNN

資源｜用Python和NumPy學習《深度學習》中的線性代數基礎

【深度學習】python實現簡單神經網路以及手寫數字識別案例

用深度神經網路搭建馬賽克神器，高清無碼效果感人

【深度學習】Python實現簡單神經網路

[Python人工智慧] 六.神經網路的評價指標、特徵標準化和特徵選擇

機器學習（包括深度神經網路）python開發環境搭建（超詳細）（適合新手）

深度神經網路為何很難訓練（包含梯度消失和梯度爆炸等）

如何用Python和深度神經網路發現即將流失的客戶？

煩惱

環境

清理

決策樹

深度

框架

實戰

相關推薦