使用tensorflow和Keras的初級教程

阿新 • • 發佈：2020-10-14

作者|Angel Das
編譯|VK
來源|Towards Datas Science

介紹

人工神經網路(ANNs)是機器學習技術的高階版本，是深度學習的核心。人工神經網路涉及以下概念。輸入輸出層、隱藏層、隱藏層下的神經元、正向傳播和反向傳播。

簡單地說，輸入層是一組自變數，輸出層代表最終的輸出(因變數)，隱藏層由神經元組成，在那裡應用方程和啟用函式。前向傳播討論方程的具體形式以獲得最終輸出，而反向傳播則計算梯度下降以相應地更新引數。有關操作流程的更多資訊，請參閱下面的文章。

https://towardsdatascience.com/introduction-to-artificial-neural-networks-for-beginners-2d92a2fb9984

深層神經網路

當一個ANN包含一個很深的隱藏層時，它被稱為深度神經網路(DNN)。DNN具有多個權重和偏差項，每一個都需要訓練。反向傳播可以確定如何調整所有神經元的每個權重和每個偏差項，以減少誤差。除非網路收斂到最小誤差，否則該過程將重複。

演算法步驟如下：

得到訓練和測試資料以訓練和驗證模型的輸出。所有涉及相關性、離群值處理的統計假設仍然有效，必須加以處理。
輸入層由自變數及其各自的值組成。訓練集分為多個batch。訓練集完整的訓練完稱為一個epoch。epoch越多，訓練時間越長
每個batch被傳遞到輸入層，輸入層將其傳送到第一個隱藏層。計算該層中所有神經元的輸出(對於每一個小批量)。結果被傳遞到下一層，這個過程重複，直到我們得到最後一層的輸出，即輸出層。這是前向傳播：就像做預測一樣，除了所有中間結果都會被保留，因為它們是反向傳播所需要的
然後使用損失函式測量網路的輸出誤差，該函式將期望輸出與網路的實際輸出進行比較
計算了每個引數對誤差項的貢獻
該演算法根據學習速率(反向傳播)執行梯度下降來調整權重和引數，並且該過程會重複進行

重要的是隨機初始化所有隱藏層的權重，否則訓練將失敗。

例如，如果將所有權重和偏移初始化為零，則給定層中的所有神經元將完全相同，因此反向傳播將以完全相同的方式影響它們，因此它們將保持相同。換句話說，儘管每層有數百個神經元，但你的模型將表現得好像每層只有一個神經元：它不會太聰明。相反，如果你隨機初始化權重，你就打破了對稱性，允許反向傳播來訓練不同的神經元

啟用函式

啟用函式是梯度下降的關鍵。梯度下降不能在平面上移動，因此有一個定義良好的非零導數是很重要的，以使梯度下降在每一步都取得進展。Sigmoid通常用於logistic迴歸問題，但是，也有其他流行的選擇。

雙曲正切函式

這個函式是S形的，連續的，輸出範圍在-1到+1之間。在訓練開始時，每一層的輸出或多或少都以0為中心，因此有助於更快地收斂。

整流線性單元

對於小於0的輸入，它是不可微的。對於其他情況，它產生良好的輸出，更重要的是具有更快的計算速度。函式沒有最大輸出，因此在梯度下降過程中可能出現的一些問題得到了很好的處理。

為什麼我們需要啟用函式？

假設f(x)=2x+5和g(x)=3x-1。兩個輸入項的權重是不同的。在連結這些函式時，我們得到的是，f(g(x))=2(3x-1)+5=6x+3，這又是一個線性方程。非線性的缺失表現為深層神經網路中等價於一個線性方程。這種情況下的複雜問題空間無法處理。

損失函式

在處理迴歸問題時，我們不需要為輸出層使用任何啟用函式。在訓練迴歸問題時使用的損失函式是均方誤差。然而，訓練集中的異常值可以用平均絕對誤差來處理。Huber損失也是基於迴歸的任務中廣泛使用的誤差函式。

當誤差小於閾值t(大多為1)時，Huber損失是二次的，但當誤差大於t時，Huber損失是線性的。與均方誤差相比，線性部分使其對異常值不太敏感，並且二次部分比平均絕對誤差更快地收斂和更精確的數字。

分類問題通常使用二分類交叉熵、多分類交叉熵或稀疏分類交叉熵。二分類交叉熵用於二分類，而多分類或稀疏分類交叉熵用於多類分類問題。你可以在下面的連結中找到有關損失函式的更多詳細資訊。

注：分類交叉熵用於因變數的one-hot表示，當標籤作為整數提供時，使用稀疏分類交叉熵。

https://keras.io/api/losses/

用Python開發ANN

我們將使用Kaggle的信用資料開發一個使用Jupyter Notebook的欺詐檢測模型。同樣的方法也可以在google colab中實現。

資料集包含2013年9月歐洲持卡人通過信用卡進行的交易。此資料集顯示兩天內發生的交易，其中284807筆交易中有492宗欺詐。資料集高度不平衡，正類(欺詐)佔所有交易的0.172%。

https://www.kaggle.com/mlg-ulb/creditcardfraud

import tensorflow as tf
print(tf.__version__)

import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
import tensorflow as tf

from sklearn import preprocessing

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, BatchNormalization

from sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, f1_score, precision_recall_curve, auc

import matplotlib.pyplot as plt
from tensorflow.keras import optimizers

import seaborn as sns

from tensorflow import keras

import random as rn

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "3"
PYTHONHASHSEED=0

tf.random.set_seed(1234)
np.random.seed(1234)
rn.seed(1254)

資料集由以下屬性組成。時間、主要成分、金額和類別。更多資訊請訪問Kaggle網站。

file = tf.keras.utils
raw_df = pd.read_csv(‘https://storage.googleapis.com/download.tensorflow.org/data/creditcard.csv')
raw_df.head()

由於大多數屬性都是主成分，所以相關性總是0。唯一可能出現異常值的列是amount。下面簡要介紹一下這方面的統計資料。

count    284807.00
mean         88.35
std         250.12
min           0.00
25%           5.60
50%          22.00
75%          77.16
max       25691.16
Name: Amount, dtype: float64

異常值對於檢測欺詐行為至關重要，因為基本假設是，較高的交易量可能是欺詐活動的跡象。然而，箱線圖並沒有揭示任何具體的趨勢來驗證上述假設。

準備輸入輸出和訓練測試資料

X_data = credit_data.iloc[:, :-1]

y_data = credit_data.iloc[:, -1]

X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size = 0.2, random_state = 7)

X_train = preprocessing.normalize(X_train)

數量和主成分分析變數使用不同的尺度，因此資料集是標準化的。標準化在梯度下降中起著重要作用。標準化資料的收斂速度要快得多。

print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

輸出：

(227845, 29) #記錄數x列數
(56962, 29)
(227845,)
(56962,)

開發神經網路層

上面的輸出表明我們有29個自變數要處理，因此輸入層的形狀是29。任何人工神經網路架構的一般結構概述如下。

+----------------------------+----------------------------+
 |      Hyper Parameter       |   Binary Classification    |
 +----------------------------+----------------------------+
 | # input neurons            | One per input feature      |
 | # hidden layers            | Typically 1 to 5           |
 | # neurons per hidden layer | Typically 10 to 100        |
 | # output neurons           | 1 per prediction dimension |
 | Hidden activation          | ReLU, Tanh, sigmoid        |
 | Output layer activation    | Sigmoid                    |
 | Loss function              | Binary Cross Entropy       |
 +----------------------------+----------------------------+
+-----------------------------------+----------------------------+
 |          Hyper Parameter          | Multiclass Classification  |
 +-----------------------------------+----------------------------+
 | # input neurons                   | One per input feature      |
 | # hidden layers                   | Typically 1 to 5           |
 | # neurons per hidden layer        | Typically 10 to 100        |
 | # output neurons                  | 1 per prediction dimension |
 | Hidden activation                 | ReLU, Tanh, sigmoid        |
 | Output layer activation           | Softmax                    |
 | Loss function                     | "Categorical Cross Entropy |
 | Sparse Categorical Cross Entropy" |                            |
 +-----------------------------------+----------------------------+

Dense函式的輸入

units — 輸出尺寸
activation — 啟用函式，如果未指定，則不使用任何內容
use_bias — 布林值，如果使用偏置項
kernel_initializer — 核權重的初始值設定項
bias_initializer —偏置向量的初始值設定項。

model = Sequential(layers=None, name=None)
model.add(Dense(10, input_shape = (29,), activation = 'tanh'))
model.add(Dense(5, activation = 'tanh'))
model.add(Dense(1, activation = 'sigmoid'))

sgd = optimizers.Adam(lr = 0.001)

model.compile(optimizer = sgd, loss = 'binary_crossentropy', metrics=['accuracy'])

體系結構摘要

model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
dense (Dense)                (None, 10)                300       
_________________________________________________________________
dense_1 (Dense)              (None, 5)                 55        
_________________________________________________________________
dense_2 (Dense)              (None, 1)                 6         
=================================================================
Total params: 361
Trainable params: 361
Non-trainable params: 0
_________________________________________________________________

讓我們試著理解上面的輸出(輸出說明使用兩個隱藏層提供)：

我們建立了一個具有一個輸入、兩個隱藏和一個輸出層的神經網路
輸入層有29個變數和10個神經元。所以權重矩陣的形狀是10 x 29，而偏置矩陣的形狀是10 x 1
第1層引數總數=10 x 29+10 x 1=300
第一層有10個輸出值，使用tanh作為啟用函式。第二層有5個神經元和10個輸入，因此權重矩陣為5×10，偏置矩陣為5×1
第2層總引數=5 x 10+5 x 1=55
最後，輸出層有一個神經元，但是它有5個不同於隱藏層2的輸入，並且有一個偏置項，因此神經元的數量=5+1=6

model.fit(X_train, y_train.values, batch_size = 2000, epochs = 20, verbose = 1)
Epoch 1/20
114/114 [==============================] - 0s 2ms/step - loss: 0.3434 - accuracy: 0.9847
Epoch 2/20
114/114 [==============================] - 0s 2ms/step - loss: 0.1029 - accuracy: 0.9981
Epoch 3/20
114/114 [==============================] - 0s 2ms/step - loss: 0.0518 - accuracy: 0.9983
Epoch 4/20
114/114 [==============================] - 0s 2ms/step - loss: 0.0341 - accuracy: 0.9986
Epoch 5/20
114/114 [==============================] - 0s 2ms/step - loss: 0.0255 - accuracy: 0.9987
Epoch 6/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0206 - accuracy: 0.9988
Epoch 7/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0174 - accuracy: 0.9988
Epoch 8/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0152 - accuracy: 0.9988
Epoch 9/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0137 - accuracy: 0.9989
Epoch 10/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0125 - accuracy: 0.9989
Epoch 11/20
114/114 [==============================] - 0s 2ms/step - loss: 0.0117 - accuracy: 0.9989
Epoch 12/20
114/114 [==============================] - 0s 2ms/step - loss: 0.0110 - accuracy: 0.9989
Epoch 13/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0104 - accuracy: 0.9989
Epoch 14/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0099 - accuracy: 0.9989
Epoch 15/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0095 - accuracy: 0.9989
Epoch 16/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0092 - accuracy: 0.9989
Epoch 17/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0089 - accuracy: 0.9989
Epoch 18/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0087 - accuracy: 0.9989
Epoch 19/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0084 - accuracy: 0.9989
Epoch 20/20
114/114 [==============================] - 0s 1ms/step - loss: 0.0082 - accuracy: 0.9989

評估輸出

X_test = preprocessing.normalize(X_test)

results = model.evaluate(X_test, y_test.values)

1781/1781 [==============================] - 1s 614us/step - loss: 0.0086 - accuracy: 0.9989

用Tensor Board分析學習曲線

TensorBoard是一個很好的互動式視覺化工具，可用於檢視訓練期間的學習曲線、比較多個執行的學習曲線、分析訓練指標等。此工具隨TensorFlow自動安裝。

import os
root_logdir = os.path.join(os.curdir, “my_logs”)

def get_run_logdir():
 import time
 run_id = time.strftime(“run_%Y_%m_%d-%H_%M_%S”)
 return os.path.join(root_logdir, run_id)
 
run_logdir = get_run_logdir()

tensorboard_cb = keras.callbacks.TensorBoard(run_logdir)

model.fit(X_train, y_train.values, batch_size = 2000, epochs = 20, verbose = 1, callbacks=[tensorboard_cb])

%load_ext tensorboard
%tensorboard --logdir=./my_logs --port=6006

超參調節

如前所述，對於一個問題空間，有多少隱藏層或多少神經元最適合，並沒有預定義的規則。我們可以使用隨機化searchcv或GridSearchCV來超調一些引數。可微調的引數概述如下：

隱藏層數
隱藏層神經元
優化器
學習率
epoch

宣告函式以開發模型

def build_model(n_hidden_layer=1, n_neurons=10, input_shape=29):
    
    # 建立模型
    model = Sequential()
    model.add(Dense(10, input_shape = (29,), activation = 'tanh'))
for layer in range(n_hidden_layer):
        model.add(Dense(n_neurons, activation="tanh"))
model.add(Dense(1, activation = 'sigmoid'))
    
    # 編譯模型
model.compile(optimizer ='Adam', loss = 'binary_crossentropy', metrics=['accuracy'])
    
    return model

使用包裝類克隆模型

from sklearn.base import clone
 
keras_class = tf.keras.wrappers.scikit_learn.KerasClassifier(build_fn = build_model,nb_epoch = 100,
 batch_size=10)
clone(keras_class)

keras_class.fit(X_train, y_train.values)

建立隨機搜尋網格

from scipy.stats import reciprocal
from sklearn.model_selection import RandomizedSearchCV

param_distribs = {
 “n_hidden_layer”: [1, 2, 3],
 “n_neurons”: [20, 30],
# “learning_rate”: reciprocal(3e-4, 3e-2),
# “opt”:[‘Adam’]
}

rnd_search_cv = RandomizedSearchCV(keras_class, param_distribs, n_iter=10, cv=3)

rnd_search_cv.fit(X_train, y_train.values, epochs=5)

檢查最佳引數

rnd_search_cv.best_params_

{'n_neurons': 30, 'n_hidden_layer': 3}

rnd_search_cv.best_score_

model = rnd_search_cv.best_estimator_.model

優化器也應該微調，因為它們影響梯度下降、收斂和學習速率的自動調整。

Adadelta -Adadelta是Adagrad的一個更健壯的擴充套件，它基於梯度更新的移動視窗來調整學習速率，而不是累積所有過去的梯度
隨機梯度下降-常用。需要使用搜索網格微調學習率
Adagrad-對於所有引數和其他優化器的每個週期，學習速率都是恆定的。然而，Adagrad在處理誤差函式導數時，會改變每個引數的學習速率“η”，並在每個時間步長“t”處改變
ADAM-ADAM(自適應矩估計)利用一階和二階動量來防止跳越區域性極小值，保持了過去梯度的指數衰減平均值

一般來說，通過增加層的數量而不是每層神經元的數量，可以獲得更好的輸出。

參考文獻

Aurélien Géron (2017). Hands-on machine learning with Scikit-Learn and TensorFlow : concepts, tools, and techniques to build intelligent systems. Sebastopol, Ca: O’reilly Media

原文連結：https://towardsdatascience.com/a-beginners-guide-to-artificial-neural-network-using-tensor-flow-keras-41ccd575a876

歡迎關注磐創AI部落格站：
http://panchuang.net/

sklearn機器學習中文官方文件：
http://sklearn123.com/

歡迎關注磐創部落格資源彙總站：
http://docs.panchuang.net/

使用tensorflow和Keras的初級教程

介紹

深層神經網路

啟用函式

雙曲正切函式

整流線性單元

為什麼我們需要啟用函式？

損失函式

用Python開發ANN

準備輸入輸出和訓練測試資料

開發神經網路層

Dense函式的輸入

體系結構摘要

讓我們試著理解上面的輸出(輸出說明使用兩個隱藏層提供)：

評估輸出

用Tensor Board分析學習曲線

超參調節

參考文獻

使用tensorflow和Keras的初級教程

關於windows下Tensorflow和pytorch安裝教程

完美解決TensorFlow和Keras大資料量記憶體溢位的問題

【Tensorflow】tensorflow和keras+讀取官方版本的MNIST資料集

防止在訓練模型時資訊丟失用於TensorFlow、Keras和PyTorch的檢查點教程

TensorFlow和深度學習入門教程

Nginx Linux和Windows安裝教程

SQL Server2012資料庫備份和還原的教程

Linux下MySQL解除安裝和安裝圖文教程

Mysql 5.7.20壓縮版下載和安裝簡易教程

PyTorch和Keras計算模型引數的例子

Python和Anaconda和Pycharm安裝教程圖文詳解

基於Tensorflow高階讀寫教程

Python3.6 + TensorFlow 安裝配置圖文教程（Windows 64 bit）

探祕TensorFlow 和 NumPy 的 Broadcasting 機制

Pycharm中切換pytorch的環境和配置的教程詳解

PyQt5+Pycharm安裝和配置圖文教程詳解

Anaconda+VSCode配置tensorflow開發環境的教程詳解

Visual Studio Code安裝和配置的教程

淺談cv2.imread()和keras.preprocessing中的image.load_img()區別

使用tensorflow和Keras的初級教程

介紹

深層神經網路

啟用函式

雙曲正切函式

整流線性單元

為什麼我們需要啟用函式？

損失函式

用Python開發ANN

準備輸入輸出和訓練測試資料

開發神經網路層

Dense函式的輸入

體系結構摘要

讓我們試著理解上面的輸出(輸出說明使用兩個隱藏層提供)：

評估輸出

用Tensor Board分析學習曲線

超參調節

參考文獻

相關推薦