AI：拿來主義——預訓練網路（二）

上一篇文章我們聊的是使用預訓練網路中的一種方法，特徵提取，今天我們討論另外一種方法，微調模型，這也是遷移學習的一種方法。

微調模型

為什麼需要微調模型？我們猜測和之前的實驗，我們有這樣的共識，資料量越少，網路的特徵節點越多，會越容易導致過擬合，這當然不是我們所希望的，但對於那些預先訓練好的模型，還有可能最終無法很好的完成所要做的工作，因此我們還需要對其更改，基於此原因，我們需要做的就是拿來一個訓練好的模型，更改其中更加抽象的層，即網路後面的層，然後再採用新的分類器，這樣可以比較好的解決上面所提出的過擬合問題了。

進行微調網路的步驟是：

在已經訓練好的網路（基網路）基礎上，新增自定義的層；
凍結基網路並訓練新新增的層；
凍結基網路的一部分層，另一部分可訓練；
聯合訓練解凍的這些層和新增的部分。

我們上一篇提到的方法就可以完成前兩個步驟，接下來我們看如何解決後兩個步驟。這裡我們還要更明確一下調整的層數如果過多會帶來什麼問題：隨著可變層數的增多，過擬合的風險會隨之加大。還要明確調整網路中識別畫素和線條的層不如調整識別耳朵的層更有效，因為不論是識別貓還是桌子識別線條的方法層更通用。

完成這項任務所需要寫的程式碼也是很簡單的，就是設定模型是可訓練的，然後遍歷網路的每一層，針對每一層分別設定是否是可訓練的，直到 layer_name 層，前面的層都是不可訓練的：

conv_base.trainable = True
set_trainable = False
for layer in conv_base.layers:
    if layer.name == 'layer_name':
        set_trainable = True
    if set_trainable:
        layer.trainable = True
    else:
        layer.trainable = False

這裡是關鍵部分程式碼，老規矩，最後將給出全部程式碼，我們先來看看結果：

需要注意一下這裡的資料，在開始的時候不穩定，迅速爬升，因此縱座標的資料沒有那麼好，但我們仔細看一下後期的資料，訓練精度和驗證精度都在百分之九十到百分之百，驗證精度一直有一些波動，是網路的一些噪聲引起的，我不想去強制讓它們那麼漂亮了，一是因為訓練時間會比較長，而是因為我覺得沒有特別大的必要，波動的最高點和最低點都在可接受的範圍內，應該把關注點放在更重要的問題上去。

基於本篇文章和上一篇文章，我們做個小結：

計算機視覺領域中，卷積神經網路的表現非常不錯，並且在資料集較小的情況下，表現讓人是非常優秀的。
資料增強是很好的避免過擬合的方法，過擬合產生的主要原因可能是資料量太少或者是引數過多。
特徵提取可以比較好的將現有的神經網路應用於小型資料集，還可以使用微調的方式進行優化。

我們看看程式碼吧，這裡還有一個建議，如果可能儘量使用 GPU 去做網路模型的訓練，CPU 在現階段處理這些問題會有點力不從心，耗時較長，讀者也可以考慮減少一些資料量加快速度，但要避免過擬合，請讀者心中記住此類問題，在遇到問題的時候是一個方向（當然，筆者是非常慘的，沒有好用的 GPU，因此等待資料畫圖截圖是非常痛苦的一件事）：

#!/usr/bin/env python3

import os
import time

import matplotlib.pyplot as plt
from keras import layers
from keras import models
from keras import optimizers
from keras.applications import VGG16
from keras.preprocessing.image import ImageDataGenerator


def cat():
    base_dir = '/Users/renyuzhuo/Desktop/cat/dogs-vs-cats-small'
    train_dir = os.path.join(base_dir, 'train')
    validation_dir = os.path.join(base_dir, 'validation')

    train_datagen = ImageDataGenerator(
        rescale=1. / 255,
        rotation_range=40,
        width_shift_range=0.2,
        height_shift_range=0.2,
        shear_range=0.2,
        zoom_range=0.2,
        horizontal_flip=True,
        fill_mode='nearest')

    test_datagen = ImageDataGenerator(rescale=1. / 255)

    train_generator = train_datagen.flow_from_directory(
        train_dir,
        target_size=(150, 150),
        batch_size=20,
        class_mode='binary')

    validation_generator = test_datagen.flow_from_directory(
        validation_dir,
        target_size=(150, 150),
        batch_size=20,
        class_mode='binary')

    # 定義密集連線分類器
    conv_base = VGG16(weights='imagenet',
                      include_top=False,
                      input_shape=(150, 150, 3))
    conv_base.trainable = True
    set_trainable = False
    for layer in conv_base.layers:
        if layer.name == 'block5_conv1':
            set_trainable = True
        if set_trainable:
            layer.trainable = True
        else:
            layer.trainable = False
    model = models.Sequential()
    model.add(conv_base)
    model.add(layers.Flatten())
    model.add(layers.Dense(256, activation='relu', input_dim=4 * 4 * 512))
    model.add(layers.Dropout(0.5))
    model.add(layers.Dense(1, activation='sigmoid'))

    conv_base.summary()

    # 對模型進行配置
    model.compile(loss='binary_crossentropy',
                  optimizer=optimizers.RMSprop(lr=1e-5),
                  metrics=['acc'])

    # 對模型進行訓練
    history = model.fit_generator(
        train_generator,
        steps_per_epoch=100,
        epochs=100,
        validation_data=validation_generator,
        validation_steps=50)

    # 畫圖
    acc = history.history['acc']
    val_acc = history.history['val_acc']
    loss = history.history['loss']
    val_loss = history.history['val_loss']
    epochs = range(len(acc))
    plt.plot(epochs, acc, 'bo', label='Training acc')
    plt.plot(epochs, val_acc, 'b', label='Validation acc')
    plt.title('Training and validation accuracy')
    plt.legend()
    plt.show()
    plt.figure()
    plt.plot(epochs, loss, 'bo', label='Training loss')
    plt.plot(epochs, val_loss, 'b', label='Validation loss')
    plt.title('Training and validation loss')
    plt.legend()
    plt.show()


if __name__ == "__main__":
    time_start = time.time()
    cat()
    time_end = time.time()
    print('Time Used: ', time_end - time_start)

本文首發自公眾號：RAIS

相關推薦

AI：拿來主義——預訓練網路（二）

上一篇文章我們聊的是使用預訓練網路中的一種方法，特徵提取，今天我們討論另外一種方法，微調模型，這也是遷移學習的一種方法。微調模型為什麼需要微調模型？我們猜測和之前的實驗，我們有這樣的共識，資料量越少，網路的特徵節點越多，會越容易導致過擬合，這當然不是我們所希望的，但對於那些預先訓練好的模型，還有可能最終無

AI：拿來主義——預訓練網路（一）

我們已經訓練過幾個神經網路了，識別手寫數字，房價預測或者是區分貓和狗，那隨之而來就有一個問題，這些訓練出的網路怎麼用，每個問題我都需要重新去訓練網路嗎？因為程式設計師都不太喜歡做重複的事情，因此答案肯定是已經有輪子了。我們先來介紹一個數據集，ImageNet。這就不得不提一個大名鼎鼎的華裔 AI 科學家李飛

搭建簡單圖片分類的卷積神經網路（二）-- CNN模型與訓練

一、首先，簡單來說CNN卷積神經網路與BP神經網路主要區別在於： 1、網路的層數的多少（我這裡的CNN是比較簡單的，層數較少，真正應用的話，層數是很多的）。 2、CNN名稱來說，具有卷積運算的特點，對於大型的圖片或者數量多的圖片，卷積運算可以大量提高計算效能，而BP神經網路大都為全連線層，計

【AI實戰】快速掌握TensorFlow（二）：計算圖、會話

在前面的文章中，我們已經完成了AI基礎環境的搭建（見文章：Ubuntu + Anaconda + TensorFlow + GPU + PyCharm搭建AI基礎環境），以及初步瞭解了TensorFlow的特點和基本操作（見文章：快速掌握TensorFlow（一）），接下來將繼續學習掌握Tenso

神經網路（二）：Softmax函式與多元邏輯迴歸

一、 Softmax函式與多元邏輯迴歸為了之後更深入地討論神經網路，本節將介紹在這個領域裡很重要的softmax函式，它常被用來定義神經網路的損失函式（針對分類問題）。根據機器學習的理論，二元邏輯迴歸的模型公式可以寫為如下的形式： (1)P(y=1)=11

卷積神經網路（二）：應用簡單卷積網路實現MNIST數字識別

卷積神經網路簡單實現MNIST數字識別本篇的主要內容：一個兩層卷積層的簡單卷積網路的TensorFlow的實現網路的結構在這張圖裡，我把每一層的輸入以及輸出的結構都標註了，結合閱讀程式碼食用效果更佳。具體程式碼具體的內容，都寫在相應位置的註釋中

機器學習與神經網路（二）：感知器的介紹和Python程式碼實現

前言：本篇博文主要介紹感知器的相關知識，採用理論+程式碼實踐的方式，進行感知器的學習。本文首先介紹感知器的模型，然後介紹感知器學習規則（Perceptron學習演算法），最後通過Python程式碼實現單層感知器，從而給讀者一個更加直觀的認識。 1.單層感知器模型單層感知器

嘗試用google colab訓練自己的神經網路（二）

接下來我們要讀取資料了，首先掛載google drive：# Install the PyDrive wrapper & import libraries. # This only needs to be done once per notebook. !pip in

Android應用開發：網絡工具——Volley（二）

respond sid 開發多少 called creat miss 相等 eal 引言在Android應用開發：網絡工具——Volley（一）中結合Cloudant服務介紹了Volley的一般使用方法，當中包括了兩種請求類型StringRequest和JsonOb

Java總結篇系列：Java多線程（二）

文章睡眠 blog setdeamon java多線程 cep public pan level Java總結篇系列：Java多線程（二）本文承接上一篇文章《Java總結篇系列：Java多線程（一）》。四.Java多線程的阻塞狀態與線程控制上文已經提到Jav

《Java從入門到放棄》入門篇：springMVC數據傳遞（二）

java springmvc modelandview 上一篇講完了springMVC中數據傳遞中的接收數據，今天繼續完成數據的向後傳遞。數據傳遞的核心對象ModelAndView，註意其包名，不要引用錯了！正確的：org.springframework.web.servlet.ModelAndV

Introduction to 3D Game Programming with DirectX 12 學習筆記之 --- 第七章：在Direct3D中繪製（二）

程式碼工程地址： https://github.com/jiabaodan/Direct12BookReadingNotes 學習目標理解本章中針對命令佇列的更新（不再需要每幀都flush命令佇列），提高效能；理解其他兩種型別的根訊號引數型別：根描述

Python運維開發：運算子與資料型別（二）

python物件的相關術語： python程式中儲存的所有資料都是圍繞物件這個概念展開的：程式中儲存的所有資料都是物件每個物件都有一個身份、一個型別和一個值　　　　例如，school='MaGe Linux'會以'MaGe Linux'建立一個字串物件，其身份是指向它在記憶體中所處位

前端：HTML5 and CSS 入門（二）

1. Link to External Pages with Anchor Elements a元素，也叫anchor（錨點）元素，既可以用來連結到外部地址實現頁面跳轉功能，也可以連結到當前頁面的某部分實現內部導航功能。下面是一張a元素的圖示。a元素位於段落元素的中間，這意味著連結

Mysql基礎3：SQL的基本操作（二）

一、修改資料表表本身存在，還包含欄位;表的修改分為兩個部分：修改表本身和修改欄位。 1、表本身可以修改：表名和表選項（1）修改表名：rename table 老表名 to 新表名；（2）修改表選項：字符集，校對和儲存引擎 Alter table 表名表選項 [=]

機器學習-神經網路（二）

上一篇：機器學習-神經網路（一）神經網路的代價函式符號意義 L

轉：全卷積網路（FCN）與影象分割

學習收藏。從影象分類到影象分割卷積神經網路（CNN）自2012年以來，在影象分類和影象檢測等方面取得了巨大的成就和廣泛的應用。 CNN的強大之處在於它的多層結構能自動學習特徵，並且可以學習到多個層次的特徵：較淺的卷積層感知域較小，學習到一些區域性區域的特徵；較深

深度學習分散式訓練實戰（二）——TF

本篇部落格主要介紹TF的分散式訓練，重點從程式碼層面進行講解。理論部分可以參考深度學習分散式訓練實戰（一) TF的分散式實現方式 TF的分散式有兩種實現方式，一種是圖內分散式（In-graph replication）；一種是圖間分散式(Between-gra

Spark2.3.2原始碼解析： 7. SparkContext原始碼分析（二）：TaskScheduler

程式碼部分：啟動指令碼 --name spark-test --class WordCount --master yarn --deploy-mode cluster /A/spark-test.jar /

k8s1.13.0二進位制部署-flannel網路（二）

Flannel容器叢集網路部署 Overlay Network：覆蓋網路，在基礎網路上疊加的一種虛擬網路技術模式，該網路中的主機通過虛擬鏈路連線起來。VXLAN：將源資料包封裝到UDP中，並使用基礎網路的IP/MAC作為外層報文頭進行封裝，然後在乙太網上傳輸，到達目的地後由隧道端點解封裝並將資料傳送給目標地