【tensorflow】神經網路的優化

阿新 • • 發佈：2020-08-15

神經網路的複雜度

1.空間複雜度

層數 = 隱藏層的層數 + 1個輸出層

總引數 = 總w + 總b

2.時間複雜度

乘加運算次數 = 總w

指數衰減學習率

指數衰減學習率 = 初始學習率 * 學習率衰減率^(當前輪數/多少輪衰減一次)

初始學習率：最初的學習率
學習率衰減率：學習率按照這個比例指數衰減
當前輪數：可以用當前迭代了多少次資料集也就是epoch表示，也可以用當前迭代了多少次batch表示
多少輪衰減一次：迭代多少次更新一次學習率，決定了學習率更新的頻率

例：
poch = 50
r_base = 0.2
r_decay = 0.99
r_step = 1

or epoch in 
 range(epoch):

    lr = lr_base * lr_decay ** (epoch/lr_step)

    with tf.GradientTape() as tape:

        loss = tf.square(w + 1)

    grads = tape.gradient(loss, w)

    w.assign_sub(lr * grads)

啟用函式

線性函式表達力不夠

加入非線性函式(啟用函式)大大提升了模型的表達力

優秀的啟用函式：

非線性：只有啟用函式是非線性時，

才不會被單層網路所替代，

使得多層網路有了意義，

而多層網路可逼近所有函式

可微性：優化器大多使用梯度下降法更新引數，

若啟用函式不可微，就不能更新引數

單調性：當啟用函式是單調的，能保證單層網路的損失函式是凸函式，更容易收斂

近似恆等性：f(x) ≈ x

當引數初始值為隨機小數時，神經網路更穩定

啟用函式輸出值的範圍：

啟用函式輸出為有限值時，基於梯度的優化方法更穩定

啟用函式輸出為無限值時，建議調小學習率

igmoid函式

f.nn.sigmoid(x)

anh函式

f.nn.tanh(x)

elu函式

f.nn.relu(x)

eaky Relu函式

f.nn.leaky_relu(x)

對初學者的建議：

首選relu啟用函式

學習率設定較小值

輸入特徵標準化，即讓輸入特徵滿足以0為均值，1為標準差的正態分佈

初始引數中心化，即讓隨機生成的引數滿足以0為均值，√(2/當前層輸入特徵個數)為標差的正態分佈

損失函式loss:

前向傳播預測結果y與已知標準答案y_的差距

神經網路的優化目標就是找到某套引數，

使得預測結果與標準答案無限接近,即loss值最小

主流loss有三種：

均方誤差

oss_mse = tf.reduce_mean(tf.square(y_ - y))

自定義

交叉熵

交叉熵越大，兩個概率分佈越遠

交叉熵越小，兩個概率分佈越近

f.losses.categorical_crossentropy(y_, y)

執行分類問題時，

通常先用softmax函式使輸出結果符合概率分佈

再求交叉熵損失函式

ensorflow給出了同時計算概率分佈和交叉熵的函式

f.nn.softmax_cross_entropy_with_logits(y_, y)

欠擬合與過擬合

欠擬合：模型不能有效擬合數據集

過擬合：模型對資料擬合太好，

但缺乏泛化力，對新資料難以做出判斷

欠擬合的解決方法：

增加輸入特徵項

增加網路引數

減少正則化引數

過擬合的解決方法：

資料清洗

增大訓練集

採用正則化

增大正則化引數

正則化減少過擬合：

給w加權重，抑制訓練中的噪聲

通常只對w使用，不對b使用

oss = loss(y_, y) + regularizer * loss(w)

oss(y_, y):原loss值

egularizer：引數w在總loss中的比重

oss(w)：對所有w求和（L1正則化）

對所有w的平方求和（L2正則化）

1正則化大概率會使很多引數變為0

可用來稀疏引數，降低模型複雜度

2正則化會使引數接近0但不等於0

可用來減小引數的數值

有效緩解資料集中因噪聲引起的過擬合

例：

with tf.GradientTape() as tape:

。。。

# 寄存所有w L2正則化後的結果

loss_regularization = []

# 將w 做L2正則化處理，並即存在loss_regularization中

loss_regularization.append(tf.nn.l2_loss(w1))

loss_regularization.append(tf.nn.l2_loss(w2))

# 計算引數w L2正則化後的總和

loss_regularization = tf.reduce_sum(loss_regularization)

loss = loss + 0.03 * loss_regularization

優化器更新網路引數

【tensorflow】神經網路的優化

神經網路的複雜度 1.空間複雜度層數 = 隱藏層的層數 + 1個輸出層總引數 = 總w + 總b

【tensorflow】神經網路的一些基本概念和設計過程

當今人工智慧主流方向 —— 連線主義，即仿腦神經元連線，實現感性思維，如神經網路。

【tensorflow】神經網路：斷點續訓

斷點續訓，即在一次訓練結束後，可以先將得到的最優訓練引數儲存起來，待到下次訓練時，直接讀取最優引數，在此基礎上繼續訓練。

【tensorflow】tf.keras + class 6 步搭建神經網路

tf.keras + Sequential()可以搭建出上層輸入就是下層輸出的順序網路結構，但是無法寫出一些帶有跳連的非順序網路結構。

【tensorflow】搭建手寫數字識別神經網路模型：Sequential() / 神經網路類class 兩種方法

MNIST 資料集一共有 7 萬張圖片，都是28x28 畫素點的 0~9 手寫數字，其中6 萬用於訓練，1 萬張用於測試。

【tensorflow】搭建_Fashion資料集_神經網路模型：Sequential() / 神經網路類class 兩種方法

FASHION 資料集一共有 7 萬張圖片，每張圖片都是 28x28 畫素點的灰度值資料，其中 6 萬張用於訓練，1 萬張用於測試。

【tensorflow】自制神經網路訓練資料集

在實際應用中，我們常常需要自制資料集，解決本領域應用，而資料通常是圖片或文字，需要做格式轉換，才能在訓練時使用。

【MindSpore:跟著小Mi一起機器學習吧！】神經網路的學習（上）

危險，危險，危險——好久不見，等你在這裡見面~在經過前兩期關於神經網路的簡單介紹後，今天小Mi將進一步介紹神經網路的代價函式、前向傳播和反向傳播，廢話不多說，我們開幹吧~

【MindSpore:跟著小Mi一起機器學習吧！】神經網路表述（二）

小Mi學習，向上積極！上週小Mi簡單給大家介紹了神經網路的模型表示，今天小Mi將進一步帶領大家對神經網路進行進一步的深入理解，話不多說，一起學起來吧~

【MindSpore：跟著小Mi一起機器學習吧！】神經網路表述（一）

好久不見，甚是想念！今天小Mi繼續帶大家學習我們的機器學習系列。相信神經網路這個名詞大家都不會陌生，神經網路實際上是一個相對比較古老的演算法，沉寂了很長一段時間，不過現在隨著硬體計算能力的提升，它又成為

【MindSpore:跟著小Mi一起機器學習吧！】神經網路的學習（下）

在上週小Mi給大家的介紹中，我們談到了怎樣使用反向傳播演算法計算代價函式的導數。今天，小Mi將繼續帶大家瞭解神經網路的實現過程，廢話不多說，趕快跟小Mi一起學起來吧~

TensorFlow筆記（四）神經網路優化

第四章神經網路優化 1 回顧 1.1 tf.keras 搭建神經網路八股——六步法 import——匯入所需的各種庫和包

基於TensorFlow的比較研究：神經網路優化演算法

用於訓練神經網路的最受歡迎的優化演算法有哪些?如何比較它們?本文試圖用一個卷積神經網路(CNN)來回答這些問題。

Tensorflow實現神經網路的前向傳播

我們構想有一個神經網路，輸入為兩個input，中間有一個hidden layer，這個hiddenlayer當中有三個神經元，最後有一個output。

【tensorflow】四則運算：加減乘除

tensorflow 已經將加減乘除等各種常見算術運算封裝成了函式，需要時，直接呼叫相應函式即可。

【tensorflow】矩陣

1.定義矩陣、獲取指定行列元素程式碼： import tensorflow.compat.v1 as tf tf.disable_eager_execution()# 保證sess.run()能夠正常執行

【轉】前端效能優化方案

一、使用CDN【內容分發網路】加速 1、CDN CDN【Content Delivery Network】，即內容分發網路。屬於http快取技術中的一種。

【C++】讀入優化&輸出優化

寫作原因寫作原因？水部落格。很簡單。因為作者NOIP學校考試愉快的寫崩了讀優，寫這篇部落格以示警惕。

【直播】高效能MySQL優化實戰

黑馬程式設計師視訊庫播妞QQ號：3077485083 傳智播客旗下網際網路資訊、學習資源免費分享平臺

Ng深度學習筆記改善深層神經網路優化演算法

優化演算法 Mini-batch 梯度下降（Mini-batch gradient descent）理解mini-batch梯度下降法（Understanding mini-batch gradient descent）

【tensorflow】神經網路的優化

相關推薦