深度有趣 | 19 pix2pix影象翻譯

阿新 • • 發佈：2019-01-01

簡介

介紹基於CGAN的pix2pix模型，可用於實現多種配對影象翻譯任務

原理

配對影象翻譯包括很多應用場景，輸入和輸出都是圖片且尺寸相同

街道標註，街道實景
樓房標註，樓房實景
黑白圖片，上色圖片
衛星地圖，簡易地圖
白天，夜晚
邊緣，實物

影象翻譯應用場景舉例

pix2pix提供了一種通用的技術框架，用於完成各種配對影象翻譯任務

pix2pix原理如下，典型的CGAN結構，但G只接受一個固定的輸入X，可以理解為一個條件C，即不需要隨機噪音，然後輸出翻譯後的版本Y

D接受一個X（CGAN中的C）和一個Y（真假樣本），並判斷X和Y是否為配對的翻譯

pix2pix原理圖

除了標準的GAN損失函式之外，pix2pix還考慮了生成樣本和真實樣本之間的L1距離作為損失

$L_{L_1}(G)=\mathbb{E}_{x\sim p_x,y\sim p_y}[\left \| y-G(x) \right \|_1]$

GAN損失負責捕捉影象高頻特徵，L1損失負責捕捉低頻特徵，使得生成結果既真實且清晰

生成器G使用Unet實現，主要用到Skip-Connection來學習配對影象之間的對映

Unet網路結構

判別器D使用了PatchGAN的思想，之前是對整張圖片給出一個分數，PatchGAN則是將一張圖片分為很多塊，對每一塊都給出一個分數

實現

多個預訓練好的模型，可用於完成各種影象翻譯任務

在自己的配對影象資料上訓練影象翻譯模型（兩個資料夾，對應圖片的名稱和尺寸相同）
在自己的影象資料上訓練上色模型（一個資料夾存放彩色圖片即可，因為黑白圖片可以從彩色圖片中自動獲取）

以facades樓房資料為例，train、val、test分別包括400、100、106張圖片，每張圖片包括兩部分，對應翻譯前後的兩個版本

facades資料集示例

載入庫

# -*- coding: utf-8 -*-

import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from imageio import imread, imsave, mimsave
import glob
import os
from tqdm import tqdm

載入圖片，使用train和val，共500張圖片

images = glob.glob('data/train/*.jpg') + glob.glob('data/val/*.jpg')
print(len(images))

整理資料，從每張圖片中分離出X和Y，B2A表示從右往左

X_all = []
Y_all = []
WIDTH = 256
HEIGHT = 256
for image in images:
    img = imread(image)
    img = (img / 255. - 0.5) * 2
    # B2A
    X_all.append(img[:, WIDTH:, :])
    Y_all.append(img[:, :WIDTH, :])
X_all = np.array(X_all)
Y_all = np.array(Y_all)
print(X_all.shape, Y_all.shape)

定義一些常量、網路tensor、輔助函式，這裡的batch_size設為1，因此每次訓練都是一對一的影象翻譯

batch_size = 1
LAMBDA = 100

OUTPUT_DIR = 'samples'
if not os.path.exists(OUTPUT_DIR):
    os.mkdir(OUTPUT_DIR)

X = tf.placeholder(dtype=tf.float32, shape=[None, HEIGHT, WIDTH, 3], name='X')
Y = tf.placeholder(dtype=tf.float32, shape=[None, HEIGHT, WIDTH, 3], name='Y')
k_initializer = tf.random_normal_initializer(0, 0.02)
g_initializer = tf.random_normal_initializer(1, 0.02)

def lrelu(x, leak=0.2):
    return tf.maximum(x, leak * x)

def d_conv(inputs, filters, strides):
    padded = tf.pad(inputs, [[0, 0], [1, 1], [1, 1], [0, 0]], mode='CONSTANT')
    return tf.layers.conv2d(padded, kernel_size=4, filters=filters, strides=strides, padding='valid', kernel_initializer=k_initializer)

def g_conv(inputs, filters):
    return tf.layers.conv2d(inputs, kernel_size=4, filters=filters, strides=2, padding='same', kernel_initializer=k_initializer)
    
def g_deconv(inputs, filters):
    return tf.layers.conv2d_transpose(inputs, kernel_size=4, filters=filters, strides=2, padding='same', kernel_initializer=k_initializer)

def batch_norm(inputs):
    return tf.layers.batch_normalization(inputs, axis=3, epsilon=1e-5, momentum=0.1, training=True, gamma_initializer=g_initializer)

def sigmoid_cross_entropy_with_logits(x, y):
    return tf.nn.sigmoid_cross_entropy_with_logits(logits=x, labels=y)

判別器部分，將X和Y按通道拼接，經過多次卷積後得到30*30*1的判別圖，即PatchGAN的思想，而之前是隻有一個神經元的Dense

def discriminator(x, y, reuse=None):
    with tf.variable_scope('discriminator', reuse=reuse):
        x = tf.concat([x, y], axis=3)    
        h0 = lrelu(d_conv(x, 64, 2)) # 128 128 64
        
        h0 = d_conv(h0, 128, 2)
        h0 = lrelu(batch_norm(h0)) # 64 64 128
        
        h0 = d_conv(h0, 256, 2)
        h0 = lrelu(batch_norm(h0)) # 32 32 256
        
        h0 = d_conv(h0, 512, 1)
        h0 = lrelu(batch_norm(h0)) # 31 31 512
        
        h0 = d_conv(h0, 1, 1) # 30 30 1
        h0 = tf.nn.sigmoid(h0)
        
        return h0

生成器部分，Unet前後兩部分各包含8層卷積，且後半部分的前三層卷積使用Dropout，Dropout層在訓練過程中以一定概率隨機去掉一些神經元，起到防止過擬合的作用

def generator(x):
    with tf.variable_scope('generator', reuse=None):
        layers = []
        h0 = g_conv(x, 64)
        layers.append(h0)
        
        for filters in [128, 256, 512, 512, 512, 512, 512]:
            h0 = lrelu(layers[-1])
            h0 = g_conv(h0, filters)
            h0 = batch_norm(h0)
            layers.append(h0)
        
        encode_layers_num = len(layers) # 8
        
        for i, filters in enumerate([512, 512, 512, 512, 256, 128, 64]):
            skip_layer = encode_layers_num - i - 1
            if i == 0:
                inputs = layers[-1]
            else:
                inputs = tf.concat([layers[-1], layers[skip_layer]], axis=3)
            h0 = tf.nn.relu(inputs)
            h0 = g_deconv(h0, filters)
            h0 = batch_norm(h0)
            if i < 3:
                h0 = tf.nn.dropout(h0, keep_prob=0.5)
            layers.append(h0)
        
        inputs = tf.concat([layers[-1], layers[0]], axis=3)
        h0 = tf.nn.relu(inputs)
        h0 = g_deconv(h0, 3)
        h0 = tf.nn.tanh(h0, name='g')
        return h0

損失函式，G加上L1損失

g = generator(X)
d_real = discriminator(X, Y)
d_fake = discriminator(X, g, reuse=True)

vars_g = [var for var in tf.trainable_variables() if var.name.startswith('generator')]
vars_d = [var for var in tf.trainable_variables() if var.name.startswith('discriminator')]

loss_d_real = tf.reduce_mean(sigmoid_cross_entropy_with_logits(d_real, tf.ones_like(d_real)))
loss_d_fake = tf.reduce_mean(sigmoid_cross_entropy_with_logits(d_fake, tf.zeros_like(d_fake)))
loss_d = loss_d_real + loss_d_fake

loss_g_gan = tf.reduce_mean(sigmoid_cross_entropy_with_logits(d_fake, tf.ones_like(d_fake)))
loss_g_l1 = tf.reduce_mean(tf.abs(Y - g))
loss_g = loss_g_gan + loss_g_l1 * LAMBDA

定義優化器

update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
with tf.control_dependencies(update_ops):
    optimizer_d = tf.train.AdamOptimizer(learning_rate=0.0002, beta1=0.5).minimize(loss_d, var_list=vars_d)
    optimizer_g = tf.train.AdamOptimizer(learning_rate=0.0002, beta1=0.5).minimize(loss_g, var_list=vars_g)

訓練模型

sess = tf.Session()
sess.run(tf.global_variables_initializer())
loss = {'d': [], 'g': []}

for i in tqdm(range(100000)):
    k = i % X_all.shape[0]
    X_batch, Y_batch = X_all[k:k + batch_size, :, :, :], Y_all[k:k + batch_size, :, :, :]
    
    _, d_ls = sess.run([optimizer_d, loss_d], feed_dict={X: X_batch, Y: Y_batch})
    _, g_ls = sess.run([optimizer_g, loss_g], feed_dict={X: X_batch, Y: Y_batch})
    
    loss['d'].append(d_ls)
    loss['g'].append(g_ls)
    
    if i % 1000 == 0:
        print(i, d_ls, g_ls)
        gen_imgs = sess.run(g, feed_dict={X: X_batch})
        result = np.zeros([HEIGHT, WIDTH * 3, 3])
        result[:, :WIDTH, :] = (X_batch[0] + 1) / 2
        result[:, WIDTH: 2 * WIDTH, :] = (Y_batch[0] + 1) / 2
        result[:, 2 * WIDTH:, :] = (gen_imgs[0] + 1) / 2
        plt.axis('off')
        plt.imshow(result)
        imsave(os.path.join(OUTPUT_DIR, 'sample_%d.jpg' % i), result)
        plt.show()

plt.plot(loss['d'], label='Discriminator')
plt.plot(loss['g'], label='Generator')
plt.legend(loc='upper right')
plt.savefig('Loss.png')
plt.show()

結果如下圖所示，從左往右三張圖依次為原圖、真實圖、生成圖

facades影象翻譯結果

儲存模型，以便在單機上使用

saver = tf.train.Saver()
saver.save(sess, './pix2pix_diy', global_step=100000)

在單機上載入模型，對val中的圖片進行翻譯

# -*- coding: utf-8 -*-

import tensorflow as tf
import numpy as np
from imageio import imread, imsave
import glob

images = glob.glob('data/val/*.jpg')
X_all = []
Y_all = []
WIDTH = 256
HEIGHT = 256
N = 10
images = np.random.choice(images, N, replace=False)
for image in images:
    img = imread(image)
    img = (img / 255. - 0.5) * 2
    # B2A
    X_all.append(img[:, WIDTH:, :])
    Y_all.append(img[:, :WIDTH, :])
X_all = np.array(X_all)
Y_all = np.array(Y_all)
print(X_all.shape, Y_all.shape)

sess = tf.Session()
sess.run(tf.global_variables_initializer())

saver = tf.train.import_meta_graph('./pix2pix_diy-100000.meta')
saver.restore(sess, tf.train.latest_checkpoint('./'))

graph = tf.get_default_graph()
g = graph.get_tensor_by_name('generator/g:0')
X = graph.get_tensor_by_name('X:0')

gen_imgs = sess.run(g, feed_dict={X: X_all})
result = np.zeros([N * HEIGHT, WIDTH * 3, 3])
for i in range(N):
    result[i * HEIGHT: i * HEIGHT + HEIGHT, :WIDTH, :] = (X_all[i] + 1) / 2
    result[i * HEIGHT: i * HEIGHT + HEIGHT, WIDTH: 2 * WIDTH, :] = (Y_all[i] + 1) / 2
    result[i * HEIGHT: i * HEIGHT + HEIGHT, 2 * WIDTH:, :] = (gen_imgs[i] + 1) / 2
imsave('facades翻譯結果.jpg', result)

造好的輪子

將圖片處理成256*256大小，input_dir表示原始圖片目錄，output_dir表示大小統一處理後的圖片目錄

python tools/process.py --input_dir input_dir --operation resize --output_dir output_dir

準備好X和Y的配對資料（兩個資料夾分別存放X和Y，對應圖片的名稱和尺寸相同），將圖片像facades那樣兩兩組合起來

python tools/process.py --input_dir X_dir --b_dir Y_dir --operation combine --output_dir combine_dir

得到combine_dir之後即可訓練配對影象pix2pix翻譯模型

python pix2pix.py --mode train --output_dir model_dir --max_epochs 200 --input_dir combine_dir --which_direction AtoB

mode：執行模式，train表示訓練模型
output_dir：模型輸出路徑
max_epochs：訓練的輪數（epoch和iteration的區別）
input_dir：組合圖片路徑
which_direction：翻譯的方向，從左往右還是從右往左

模型訓練過程中，以及模型訓練完畢後，都可以使用tensorboard檢視訓練細節

tensorboard --logdir=model_dir

訓練完模型後，在測試資料上進行翻譯

python pix2pix.py --mode test --output_dir output_dir --input_dir input_dir --checkpoint model_dir

mode：執行模式，test表示測試
output_dir：翻譯結果輸出路徑
input_dir：待測試的圖片路徑
checkpoint：之前訓練得到的模型路徑

如果要訓練上色模型，則不需要以上提到的組合圖片這一步驟，只需要提供一個彩色圖片資料夾即可，因為對應的灰度圖可以從彩色圖中自動抽取

python pix2pix.py --mode train --output_dir model_dir --max_epochs 200 --input_dir combine_dir --lab_colorization

專案還提供了一些訓練好的配對影象翻譯模型

樓房：從標註到實景
街景：雙向
地圖：雙向
鞋子：從邊緣到實物
包：從邊緣到實物

風景圖片上色

使用以下資料集，http://lear.inrialpes.fr/~jegou/data.php，都是一些旅遊風景照片，已經處理成256*256大小，分為train和test兩部分，分別包含750和62張圖片

使用train中的圖片訓練上色模型

python pix2pix.py --mode train --output_dir photos/model --max_epochs 200 --input_dir photos/data/train --lab_colorization

使用test中的圖片進行測試，模型會生成每一張彩色圖對應的灰度圖和上色圖，並將全部上色結果寫入一個網頁中

python pix2pix.py --mode test --output_dir photos/test --input_dir photos/data/test --checkpoint photos/model

上色結果如下，從左往右依次為灰度圖、上色圖、原圖

風景圖片測試集上色結果

參考

視訊講解課程

深度有趣 | 19 pix2pix影象翻譯

簡介介紹基於CGAN的pix2pix模型，可用於實現多種配對影象翻譯任務原理配對影象翻譯包括很多應用場景，輸入和輸出都是圖片且尺寸相同街道標註，街道實景樓房標註，樓房實景黑白圖片，上色圖片衛星地圖，簡易地圖白天，夜晚邊緣，實物 pix2p

深度有趣 | 04 影象風格遷移

簡介影象風格遷移是指，將一幅內容圖的內容，和一幅或多幅風格圖的風格融合在一起，從而生成一些有意思的圖片以下是將一些藝術作品的風格，遷移到一張內容圖之後的效果我們使用TensorFlow和Keras分別來實現影象風格遷移，主要用到深度學習中的卷積神經網路，

深度有趣 | 25 影象標題生成

簡介介紹基於注意力機制的影象標題生成模型的原理和實現原理輸入是一張圖片，輸出是一句對圖片進行描述的文字，這就是影象標題生成基本思路是先通過預訓練的影象分類模型，從某一個卷積層得到原始圖片的表示，或者稱為上下文contexts 例如從VGG19的conv5

Pix2Pix-基於GAN的影象翻譯

語言翻譯是大家都知道的應用。但影象作為一種交流媒介，也有很多種表達方式，比如灰度圖、彩色圖、梯度圖甚至人的各種標記等。在這些影象之間的轉換稱之為影象翻譯，是一個影象生成任務。多年來，這些任務都需要用不同的模型去生成。在GAN出現之後，這些任務一下子都可以用同

11月深度學習班第8課翻譯系統

http .com 學習技術 img 翻譯 nbsp 技術分享 es2017 11月深度學習班第8課翻譯系統

深度學習功能使影象識別洞察力更快速

僅在社交網路上，每天就有超過20億張圖片被分享。研究表明，一個人要花十年的時間才能看完Snapchat（色拉布）上所有的照片。這是一項相當乏味的任務，而且遠遠超過了人類的能力。媒體購買者和提供者在安排相關內容時遇到困難，分析影象/視訊的組成部分，並以有效的方式生成內容定義投資回報。快速、準確、自動地

如何用深度學習玩轉影象處理

本文轉自知乎專欄：https://zhuanlan.zhihu.com/p/32177354 一方面為做資料整理用，方便後期回顧，另一方面轉需 -------------------------------------------------- 第一個重境

《Gluon 動手學深度學習》顯示影象資料集Fashion-MNIST

%matplotlib inline import sys sys.path.append('..') import gluonbook as gb from mxnet.gluon import data as gdata import time mnist_train=gdata.vision

[深度學習] Image Classification影象分類之Bag of Tricks for Image Classification with Convolutional Neural Net

論文全稱：《Bag of Tricks for Image Classification with Convolutional Neural Networks》論文地址：https://arxiv.org/pdf/1812.01187.pdf 這篇文章主要討論最近這些訓練神經網路的tric

深度有趣 | 13 詞向量的訓練

簡介使用TensorFlow實現中文詞向量的訓練，並完成一些簡單的語義任務回顧在全棧課程中介紹過如何使用gensim訓練中文詞向量，即詞嵌入（Word Embedding）如果沒有gensim則安裝 pip install gensim 準備好語料，

深度有趣 | 16 令人拍案叫絕的WGAN

簡介在DCGAN的基礎上，介紹WGAN的原理和實現，並在LFW和CelebA兩個資料集上進一步實踐問題 GAN一直面臨以下問題和挑戰訓練困難，需要精心設計模型結構，並小心協調G和D的訓練程度 G和D的損失函式無法指示訓練過程，缺乏一個有意義的指標和生成圖

深度有趣 | 21 從FlappyBird到DQN

簡介介紹強化學習（Reinforcement Learning，RL）的概念，並用DQN訓練一個會玩FlappyBird的模型 FlappyBird 如果沒有pygame則安裝 pip install pygame 執行flappy.py即可開始遊戲，如果

深度有趣 | 23 歌詞古詩自動生成

簡介使用RNN實現歌詞和古詩的自動生成 RNN多用於處理序列資料，通過學習資料上下文之間的關係，可以在給定若干個連續資料點的基礎上，預測下一個可能的資料點以下是最基礎的RNN公式，當然也可以使用LSTM（Long Short-Term Memory）或GRU

深度有趣 | 28 自動語音識別

簡介介紹自動語音識別（Automatic Speech Recognition，ASR）的原理，並用WaveNet實現。原理 ASR的輸入是語音片段，輸出是對應的文字內容使用深度神經網路（Deep Neural Networks，DNN）實現ASR的一般流

基於深度學習的CT影象肺結節自動檢測技術六—模型預測

#模型預測的相關功能 from chapter4 import get_unet from chapter5 import get_3dnnnet, stack_2dcube_to_3darray, prepare_image_for_net3D, MEAN_

基於深度學習的CT影象肺結節自動檢測技術五—3dcnn優化模型

import os import random from keras import layers from keras import backend as K from keras.layers import Input, Convolution3D, MaxP

基於深度學習的CT影象肺結節自動檢測技術一——資料預處理（歸一化，資料增強，資料標記）

開發環境 Anaconda:jupyter notebook /pycharm pip install SimpleItk # 讀取CT醫學影象 pip install tqdm # 可擴充套件的Python進度條，封裝

【蜂口 | AI人工智慧】人臉檢測（下）——龍鵬深度學習與人臉影象應用連載（二）

我們接著上一節的分享，繼續分享人臉檢測的下半部分。這次的分享主要是深度學習相關的。我們會主要講述當前深度學習在人臉檢測這個領域的發展水平。主要從以下幾個方向進行分享：首先，我們會講講當前主流的基於深度學習的一個人臉檢測的框架，包括兩個框架，一個是級聯CNN框架

【蜂口 | AI人工智慧】人臉年齡——龍鵬深度學習與人臉影象應用連載（六）

[所有文章皆首發於蜂口知道公眾號，內容來源於蜂口小程式~請多關注瞭解] hi，大家好，我是龍鵬。這次接著上一篇繼續給大家分享人臉影象相關的應用。本次的分享是人臉年齡這個問題。本次的分享將包含三個方面的內容。首先，對人臉年齡這個問題做一個通用的介紹。人臉年齡

11.用深度學習方法為影象中的物體進行分類

這幾個庫現在更新了，用書上的會出錯，未解決，建議直接學新的 # -*- coding: utf-8 -*- """ Created on Sun Oct 14 09:09:58 2018 @author: asus """ #11 用深度學習方法為影象中的物體

深度有趣 | 19 pix2pix影象翻譯

簡介

原理

實現

造好的輪子

風景圖片上色

參考

視訊講解課程

相關推薦