tf.keras入門(4) Explore over-fitting and under-fitting

阿新 • • 發佈：2018-12-11

探索過擬合與欠擬合

我們將探索兩種常見的正則化技術（權重正則化和丟棄），並使用它們改進我們的 IMDB 影評分類筆記本。

我們不會像在上一次那樣使用嵌入，而是對句子進行獨熱編碼。該模型將很快過擬合訓練集。它將用來演示何時發生過擬合，以及如何防止過擬合。

務必謹記：深度學習模型往往善於與訓練資料擬合，但真正的挑戰是泛化，而非擬合。

資料預處理與網路結構

和之前採用嵌入方法不同，這裡我們直接使用one hot 編碼，該模型將很快過擬合訓練集。

從上往下一共有5個模型，我們來對比它們在validation上的結果：

baseline_model

smaller_model

bigger_model

baseline_model_l2

baseline_model_dropout

介面解釋

將資料轉為二維矩陣，注意enumerate操作，可同時獲得索引和值

def multi_hot_sequences(sequences, dimension):
    # create an all_zero matrix of shape(len(sequences), dimension)
    results = 
 np.zeros(  (len(sequences), dimension)  ) # 引數應該提供一個元組
    for i, word_indices in enumerate(sequences): # 可同時獲得索引和值
        results[i,word_indices] = 1.0
    return results

要緩解過擬合，一種常見方法是限制網路的複雜性，具體方法是強制要求其權重僅採用較小的值，使權重值的分佈更“規則”。這稱為“權重正則化”，通過向網路的損失函式新增與權重較大相關的代價來實現。這個代價分為兩種型別：

L1 正則化，其中所新增的代價與權重係數的絕對值（即所謂的權重“L1 範數”）成正比。

L2 正則化，其中所新增的代價與權重係數值的平方（即所謂的權重“L2 範數”）成正比。L2 正則化在神經網路領域也稱為權重衰減。不要因為名稱不同而感到困惑：從數學角度來講，權重衰減與 L2 正則化完全相同。
新增L2正則化表示層的權重矩陣中的每個係數都會將 0.001 * weight_coefficient_value**2 新增到網路的總損失中。請注意，由於此懲罰僅在訓練時新增，此網路在訓練時的損失將遠高於測試時。

  keras.layers.Dense(16,activation=tf.nn.relu,kernel_regularizer=keras.regularizers.l2(0.001),input_shape=(NUM_WORDS, )),

新增dropout層（目前最有效且最常用的神經網路正則化技術之一）。假設某個指定的層通常會在訓練期間針對給定的輸入樣本返回一個向量 [0.2, 0.5, 1.3, 0.8, 1.1]；在應用丟棄後，此向量將隨機分佈幾個 0 條目，例如 [0, 0.5, 1.3, 0, 1.1]。“丟棄率”指變為 0 的特徵所佔的比例，通常設定在 0.2 和 0.5 之間。在測試時，網路不會丟棄任何單元，而是將層的輸出值按等同於丟棄率的比例進行縮減，以便平衡以下事實：測試時的活躍單元數大於訓練時的活躍單元數。

keras.layers.Dense(16, activation=tf.nn.relu, input_shape=(NUM_WORDS,)),
   				 keras.layers.Dropout(0.5),
    ...
    ...

作圖函式

def plot_history(histories, key='binary_crossentropy'):
    plt.figure(figsize=(16,10))
    for name,history in histories:
        val = plt.plot(history.epoch, history.history['val_'+key],'--
                       ',label=name.title()+' Val')
        plt.plot(history.epoch, history.history[key], color=val[0].get_color(),
                 label=name.title()+' Train')

    plt.xlabel('Epochs')
    plt.ylabel(key.replace('_',' ').title())
    plt.legend()
    plt.xlim([0,max(history.epoch)])

總結

三種不同容量的網路的訓練效果：

實線表示訓練損失，虛線表示驗證損失（謹記：驗證損失越低，表示模型越好）。在此示例中，較小的網路開始過擬合的時間比基準模型晚（前者在 6 個週期之後，後者在 4 個週期之後），並且開始過擬合後，它的效果下降速度也慢得多。

加入L2正則化的模型：

可以看到，L2 正則化模型的過擬合抵抗能力比基準模型強得多，雖然這兩個模型的引數數量相同。：

新增dropout層可明顯改善基準模型：

下面總結一下防止神經網路出現過擬合的最常見方法：

獲取更多訓練資料
降低網路容量
新增權重正則化
新增dropout層

還有兩個重要的方法在本指南中沒有介紹：資料增強和批次標準化。

Code

import tensorflow as tf 
from tensorflow import keras
import numpy as np
import matplotlib.pyplot as plt


'''
資料預處理
'''
NUM_WORDS = 10000
(train_data, train_labels), (test_data, test_labels) = keras.datasets.imdb.load_data(num_words=NUM_WORDS)
print(train_data.shape)

def multi_hot_sequences(sequences, dimension):
    # create an all_zero matrix of shape(len(sequences), dimension)
    results = np.zeros(  (len(sequences), dimension)  ) #提供一個元組
    for i, word_indices in enumerate(sequences): # 可同時獲得索引和值
        results[i,word_indices] = 1.0
    return results

train_data = multi_hot_sequences(train_data, NUM_WORDS)
test_data  = multi_hot_sequences(test_data, NUM_WORDS)
# plt.plot(train_data[0])
# plt.show()


'''
建立模型
'''
baseline_model = keras.Sequential([
    # 'input_shape' is only required here so that '.summary' works
    keras.layers.Dense(16, activation=tf.nn.relu, input_shape=(NUM_WORDS, )),
    keras.layers.Dense(16, activation=tf.nn.relu),
    keras.layers.Dense(1, activation=tf.nn.sigmoid)
])
baseline_model.compile( optimizer = 'adam',
                        loss='binary_crossentropy',
                        metrics=['accuracy','binary_crossentropy'])
baseline_model.summary()



smaller_model = keras.Sequential([
    keras.layers.Dense(4,activation=tf.nn.relu, input_shape=(NUM_WORDS,)),
    keras.layers.Dense(4,activation=tf.nn.relu),
    keras.layers.Dense(1,activation=tf.nn.sigmoid)
])
smaller_model.compile(optimizer='adam',
                      loss='binary_crossentropy',
                      metrics=['accuracy','binary_crossentropy'])
smaller_model.summary()



bigger_model =  keras.Sequential([
    keras.layers.Dense(512, activation=tf.nn.relu, input_shape=(NUM_WORDS,)),
    keras.layers.Dense(512, activation=tf.nn.relu),
    keras.layers.Dense(1,   activation=tf.nn.sigmoid)
])
bigger_model.compile(optimizer='adam',
                     loss='binary_crossentropy',
                     metrics=['accuracy','binary_crossentropy'])
bigger_model.summary()



baseline_model_l2 = keras.Sequential([
    keras.layers.Dense(16, activation=tf.nn.relu, kernel_regularizer=keras.regularizers.l2(0.001),
                        input_shape=(NUM_WORDS, )),
    keras.layers.Dense(16, activation=tf.nn.relu, kernel_regularizer=keras.regularizers.l2(0.001)),
    keras.layers.Dense(1, activation=tf.nn.sigmoid)
])
baseline_model_l2.compile(optimizer='adam',
                            loss='binary_crossentropy',
                            metrics=['accuracy','binary_crossentropy'])
baseline_model_l2.summary()



baseline_model_dropout = keras.Sequential([
    keras.layers.Dense(16, activation=tf.nn.relu, input_shape=(NUM_WORDS, )),
    keras.layers.Dropout(0.5),
    keras.layers.Dense(16, activation=tf.nn.relu),
    keras.layers.Dropout(0.5),
    keras.layers.Dense(1, activation=tf.nn.sigmoid)
])
baseline_model_dropout.compile(optimizer='adam',
                                loss='binary_crossentropy',
                                metrics=['accuracy','binary_crossentropy'])
baseline_model_dropout.summary()                                



'''
訓練模型
'''
def train_model(model):
    history = model.fit(train_data,
                        train_labels,
                        epochs=20,
                        batch_size=512,
                        validation_data=(test_data, test_labels),
                        verbose=2) 
    return history

a= train_model(baseline_model)
# b= train_model(smaller_model)
# c= train_model(bigger_model)
# d = train_model(baseline_model_l2)
e = train_model(baseline_model_dropout)


'''
作圖 檢視模型效果
'''
def plot_history(histories, key='binary_crossentropy'):
    plt.figure(figsize=(16,10))
    for name,history in histories:
        val = plt.plot(history.epoch, history.history['val_'+key],'--',label=name.title()+' Val')
        plt.plot(history.epoch, history.history[key], color=val[0].get_color(),
                 label=name.title()+' Train')

    plt.xlabel('Epochs')
    plt.ylabel(key.replace('_',' ').title())
    plt.legend()
    plt.xlim([0,max(history.epoch)])


plot_history([('baseline',a),
              #('smaller_model',b),
              #('bigger_model',c),
              #('baseline_l2',d),
              ('baseline_dropout',e)])
plt.show()

tf.keras入門(4) Explore over-fitting and under-fitting

探索過擬合與欠擬合我們將探索兩種常見的正則化技術（權重正則化和丟棄），並使用它們改進我們的 IMDB 影評分類筆記本。我們不會像在上一次那樣使用嵌入，而是對句子進行獨熱編碼。該模型將很快過擬合訓練集。它將用來演示何時發生過擬合，以及如何防止過擬合。務必謹記：深度

tf.keras入門(3) Predicting House Prices: Regression（boston_housing 資料集）

預測房價（迴歸）預測 20 世紀 70 年代中期波士頓郊區房價的中間值。該資料集包含 13 個不同的特徵：人均犯罪率。佔地面積超過 25000 平方英尺的住宅用地所佔的比例。非零售商業用地所佔的比例（英畝/城鎮）。查爾斯河虛擬變數（如果大

tf.keras入門(2) Film review text Classification（IMDB 資料集）

影評文字分類使用 IMDB 資料集，其中包含來自網際網路電影資料庫的 50000 條影評文字。將這些影評拆分為訓練集（25000 條影評）和測試集（25000 條影評）。訓練集和測試集之間達成了平衡，意味著它們包含相同數量的正面和負面影評。介面解釋 train_

tf.keras入門(1) Basic Classification（Fashion MNIST資料集）

基本分類（Fashion MNIST）使用tf.keras ，是一種在TensorFlow中構建和訓練模型的高階api 本指南使用 Fashion MNIST 資料集，其中包含 70000 張灰度影象，涵蓋 10 個類別。以下影象顯示了單件服飾在較低解析度（28x28 畫素）下

[tensorflow]tf.keras入門2-分類

目錄模型預測總體程式碼主要介紹基於tf.keras的Fashion MNIST資料庫分類，首先是函式的呼叫，對於tensorflow只有在版本1.2以上的版本才有tf.keras庫。另外推薦使用python3，而不是python2。 # Te

over-fitting、under-fitting 與 regularization

機器學習中一個重要的話題便是模型的泛化能力，泛化能力強的模型才是好模型，對於訓練好的模型，若在訓練集表現差，不必說在測試集表現同樣會很差，這可能是欠擬合導致；若模型在訓練集表現非常好，卻在測試集上差強人意，則這便是過擬合導致的，過擬合與欠擬合也可以用 Bias 與 Varia

webGL之three.js入門4--ThreeJS Editor入門篇

希望 con 設計 loader 相關 clas cal 其他 bar 因為工作需要，要看threejs editor的源碼，順便記錄過程。 github下載的源碼目錄是這樣的但是editor和其他文件夾內的內容的關聯的，我需要將其獨立出來並且編輯editor。進入e

keras入門實戰：手寫數字識別

如果 turn wid 寬度 initial 作用 err examples 預測近些年由於理論知識的硬件的快速發展，使得深度學習達到了空前的火熱。深度學習已經在很多方面都成功得到了應用，尤其是在圖像識別和分類領域，機器識別圖像的能力甚至超過了人類。本文用深度學習Pyt

轉錄組入門(4)：了解參考基因組及基因註釋

evel pin tps 下載安裝剪切坐標系 sem 2016年 ota 任務列表 1.在UCSC下載hg19參考基因組； 2.從gencode數據庫下載基因註釋文件，並且用IGV去查看感興趣的基因的結構，比如TP53，KRAS，EGFR等等。 3.截圖幾個基

Django入門4: ORM 數據庫操作

content ins migration rst 小數類型 tro edi .py 根據大綱一、DjangoORM 創建基本類型及生成數據庫表結構 1、簡介 2、創建數據庫表結構二、Django ORM基本增刪改查 1、表數據增刪改查 2、表結構修改三、Djan

CSS入門4—制作三角形和菱形：

簡單 ans har 其中 margin cnblogs idt 圖形 log 特殊圖形的制作在開發的過程中式必不可少的，其中菱形和三角形的應用是比較廣泛的，下面將用css制作兩款簡單而常用的圖形：三角形、菱形。一、三角形的代碼實現過程： <!DOCTYPE ht

python入門4（冒泡排序）

格式函數基礎語法 list span 同學 div 簡單的冒泡排序 bubble 在學習了最基本的python語法後，我們來實踐一個最簡單的冒泡排序，檢驗一下自己是否入門。如果某csl同學看不懂的話，回去好好看書上的基礎語法吧 1 def bubble_sort(l

Python入門4

第一個判斷 pen 自學被調用行為利用正常 per python from entry to abandon系列的收官之作本篇博客將會介紹《簡明Python教程》的最後四章內容。並在最後附上對於本書的個人評價和下階段自學Python系列博客更新的計

Deep RL Bootcamp Lecture 2: Sampling-based Approximations and Function Fitting

圖片 ppr fit img UNC lin function ctu tin

數據庫入門4 結構化查詢語言SQL

IT 相同 ber sql 方法 str 時也程序設計需要知識內容: 1.SQL介紹 2.常用SQL命令 3.SQL語句練習一、SQL介紹 1.什麽是SQL 結構化查詢語言(Structured Query Language)簡稱SQL，是一種特殊目的的

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書信息

Python 編程語言 Python爬蟲先來看看頁面長啥樣的:https://book.douban.com/top250 我們將要爬取哪些信息：書名、鏈接、評分、一句話評價……1. 爬取單個信息我們先來嘗試爬取書名，利用之前的套路，還是先復制書名的xpath：得到第一本書《追風箏的人》的書名xpath如下：

Loj 6280 數列分塊入門 4

CI 比較 div 數列 min pan long long span sin 鏈接：https://loj.ac/problem/6280 思路：多設置一個數組sum去存區間值的和就好了,因為數據範圍比較大，需要開long long . 實現代碼; #inc

小學生都看得懂的C語言入門(4): 數組與函數

clu pen class right ... 值交換 rim npr 測試 // 之前判斷素數, 只需要到sqrt(x)即可,//更加簡單的, 判斷能夠比已知的小於x的素數整除, 運行更快 #include <stdio.h> // 之前判斷素數, 只需要到

題解——loj6280 數列分塊入門4 （分塊）

cstring ret main turn for string math int lse 分塊維護一個區間和然後記得更新的時候左邊角塊的tag不要打錯到右邊角塊 #include <cstdio> #include <algorithm>

Keras入門（一）搭建深度神經網絡（DNN）解決多分類問題

-s pil return 進行 stat var das 部分 sof Keras介紹 ??Keras是一個開源的高層神經網絡API，由純Python編寫而成，其後端可以基於Tensorflow、Theano、MXNet以及CNTK。Keras 為支持快速實驗而生，能夠把

tf.keras入門(4) Explore over-fitting and under-fitting

探索過擬合與欠擬合

資料預處理與網路結構

介面解釋

總結

Code

相關推薦