【機器學習】Tensorflow:理解和實現快速風格化影象fast neural style

阿新 • • 發佈：2019-01-02

Neural Style開闢了計算機與藝術的道路，可以將照片風格化為名家大師的畫風。然而這種方法即使使用GPU也要花上幾十分鐘。Fast Neural Style則啟用另外一種思路來快速構建風格化影象，在筆記本CPU上十幾秒就可以風格化一張圖片。我們來看看這是什麼原理。
傳統的Neural Style基於VGG構建了一個最優化模型。它將待風格化圖片和風格化樣本圖放入VGG中進行前向運算。其中待風格化影象提取relu4特徵圖，風格化樣本圖提取relu1,relu2,relu3,relu4,relu5的特徵圖。我們要把一個隨機噪聲初始化的影象變成目標風格化影象，將其放到VGG中計算得到特徵圖，然後分別計算內容損失和風格損失。內容損失函式為：

Lcontent=12M∑k∑i,j(Flk−Plk)2P和F一個表示目標影象的特徵圖，一個表示待風格化原圖的特徵圖，l表示是哪個layer，k表示第幾個特徵圖，減法是矩陣元素減法,i,j是矩陣座標，M是一個可以自由發揮想象的分母，這裡定義一個原圖與生成影象在l層的所有特徵圖的歐氏距離之和。風格損失函式為：Lstyle=∑lwl1N(∑k1,k2∑i,jFlk1Flk2−∑k1,k2∑i,jPlk1Plk2)2P和F一個表示目標影象的特徵圖，一個表示風格化樣本圖的特徵圖，l表示是哪個layer，wl是不同層特徵損失的權重引數（一般是相等的），k表示第幾個特徵圖，乘法是矩陣元素乘法，生成的Gram矩陣是一種未中心化的協方差矩陣，i,j是矩陣座標，N是一個可以自由發揮想象的分母(雖然原文有明確的值，但是感覺跟原理沒關係)。計算和求和Gram矩陣做法其實簡單，假設特徵圖是C個[H,W]的矩陣，那麼合併展開為[C,HxW]的矩陣Φ

，Gram矩陣總的求和就是∑ΦΦT，這裡是矩陣乘法。
有了上面兩個損失函式，就可以構建感知損失函式：Lperceptual=αLstyle+βLcontent+γLtv第三項是噪聲約束，不用也可以，α,β,γ可以按照個人喜好來設定，這是控制輸出影象風格化程度的引數。最小化這個感知損失函式，我們就把輸入的隨機噪聲影象變成了風格化的圖片。這個最優化模型的收斂速度非常慢，GPU都要計算好久。
Fast Neural Style則可以在普通膝上型電腦中十幾秒運算出一個風格化影象。在一些科普文中是這樣解釋：Neural Style每次風格化都重新訓練了一次生成過程，把這個過程提前做好，就可以加速風格化。我覺得這個說法有點奇怪，來看看原文流程圖：
Fast Neural Style

這個模型有兩個部分，後面一個loss network就是普通Neural Style的VGG網路，這裡只當做計算loss的網路，不進行訓練；前面一個Image Transform Network一般是一個deep residual CNN，即喜聞樂見的深度殘差網路，要訓練這個網路。然而，深度殘差網路的結構跟VGG是不同，訓練深度殘差網路不等於提前做好VGG生成過程。這裡的思想，我認為是一種生成-判別模型，有生成對抗網路GAN的影子：深度殘差網路-》生成模型，VGG-》判別模型。
下面的程式碼來自國人大神hzy46，我將預測部分的程式碼已經升級遷移到python3 tensorflow 1.0正式版：

def resize_conv2d(x, input_filters, output_filters, kernel, strides, training):
    '''
    An alternative to transposed convolution where we first resize, then convolve.
    See http://distill.pub/2016/deconv-checkerboard/

    For some reason the shape needs to be statically known for gradient propagation
    through tf.image.resize_images, but we only know that for fixed image size, so we
    plumb through a "training" argument
    '''
    with tf.variable_scope('conv_transpose') as scope:
        height = x.get_shape()[1].value if training else tf.shape(x)[1]
        width = x.get_shape()[2].value if training else tf.shape(x)[2]
        new_height = height * strides * 2
        new_width = width * strides * 2
        x_resized = tf.image.resize_images(x, [new_height, new_width], tf.image.ResizeMethod.NEAREST_NEIGHBOR)
        return conv2d(x_resized, input_filters, output_filters, kernel, strides)

def residual(x, filters, kernel, strides):
    with tf.variable_scope('residual') as scope:
        conv1 = conv2d(x, filters, filters, kernel, strides)
        conv2 = conv2d(tf.nn.relu(conv1), filters, filters, kernel, strides)
        residual = x + conv2
        return residual

def instance_norm(x):
    epsilon = 1e-9
    mean, var = tf.nn.moments(x, [1, 2], keep_dims=True)
    return tf.div(tf.subtract(x, mean), tf.sqrt(tf.add(var, epsilon)))

with tf.variable_scope('conv1'):
        conv1 = tf.nn.relu(instance_norm(conv2d(image, 3, 32, 9, 1)))
    with tf.variable_scope('conv2'):
        conv2 = tf.nn.relu(instance_norm(conv2d(conv1, 32, 64, 3, 2)))
    with tf.variable_scope('conv3'):
        conv3 = tf.nn.relu(instance_norm(conv2d(conv2, 64, 128, 3, 2)))
    with tf.variable_scope('res1'):
        res1 = residual(conv3, 128, 3, 1)
    with tf.variable_scope('res2'):
        res2 = residual(res1, 128, 3, 1)
    with tf.variable_scope('res3'):
        res3 = residual(res2, 128, 3, 1)
    with tf.variable_scope('res4'):
        res4 = residual(res3, 128, 3, 1)
    with tf.variable_scope('res5'):
        res5 = residual(res4, 128, 3, 1)
    with tf.variable_scope('deconv1'):
        deconv1 = tf.nn.relu(instance_norm(resize_conv2d(res5, 128, 64, 3, 2, training)))
    with tf.variable_scope('deconv2'):
        deconv2 = tf.nn.relu(instance_norm(resize_conv2d(deconv1, 64, 32, 3, 2, training)))
    with tf.variable_scope('deconv3'):
        deconv3 = tf.nn.tanh(instance_norm(conv2d(deconv2, 32, 3, 9, 1)))
    y = (deconv3 + 1) * 127.5

明顯可以看到這裡用了反轉卷積conv2d_transpose，可以用resize_conv2d代替，也就是先放大影象然後卷積，數學意義相同，工程效果比直接conv2d_transpose要好，這是生成模型的標配啊！整個模型中，深度殘差網路不斷從原圖生成目標風格化影象，然後VGG不斷反饋深度殘差網路存在的問題，從而不斷優化生成網路，直到生成網路生成標準的風格化影象。最後要投入使用的時候，後面VGG判別網路根本不需要，只需要前面的深度殘差生成網路，就像GAN一樣。
Fast Neural Style的優點有：

生成速度快。
訓練好的模型檔案不大，載入簡單。不需要VGG網路，那個tensorflow model有500MB。

缺點有：

訓練速度很慢。官方推薦用coco資料集訓練深度殘差網路，這個資料集小的也有13GB，執行要幾十個小時。
一個生成網路只能生成一種風格化影象。我們訓練生成網路，使用的風格化影象只能用一種。

由於訓練的太慢，我就直接用hzy46大神的訓練好的model。經過訓練後的影象：這裡寫圖片描述
INFO:tensorflow:Elapsed time: 1.455744s
你們看，2015 macbook pro低配版上只要1.5秒鐘就完成了這個252x252的影象的風格化。
https://github.com/artzers/MachineLearning/tree/master/Tensorflow/fast-neural-style

【機器學習】Tensorflow:理解和實現快速風格化影象fast neural style

【機器學習】Tensorflow:理解和實現快速風格化影象fast neural style

【機器學習】簡單理解精確度（precision）和準確率（accuracy）的區別

【機器學習】--LDA初始和應用

【機器學習】生成模型和判別模型

【機器學習】線性迴歸+程式碼實現

【機器學習】TensorFlow 在 iOS 端的用例

【機器學習】Tensorflow:概率程式設計初步印象

【機器學習】tensorflow: GPU求解帶核函式的SVM二分類支援向量機

【機器學習】TensorFlow （二）優化器Optimizer

【機器學習】決策樹剪枝優化及視覺化

【機器學習】神經網路DNN的正則化

【機器學習】關於CNN中1×1卷積核和Network in Network的理解

【機器學習】對梯度下降算法的進一步理解

【機器學習】--線性回歸中L1正則和L2正則

【機器學習】使用gensim 的 doc2vec 實現文本相似度檢測

【機器學習】最簡單易懂的行人檢測功能實現

【機器學習】最容易實現的基於OpenCV的人臉檢測程式碼、檢測器及檢測效果

【機器學習】Weighted LSSVM原理與Python實現：LSSVM的稀疏化改進

【機器學習】最小二乘法支援向量機LSSVM的數學原理與Python實現

【機器學習】EM演算法詳細推導和講解

【機器學習】Tensorflow:理解和實現快速風格化影象fast neural style

相關推薦