深度有趣 | 04 影象風格遷移

阿新 • • 發佈：2018-12-10

簡介

影象風格遷移是指，將一幅內容圖的內容，和一幅或多幅風格圖的風格融合在一起，從而生成一些有意思的圖片

以下是將一些藝術作品的風格，遷移到一張內容圖之後的效果

影象風格遷移示例

我們使用TensorFlow和Keras分別來實現影象風格遷移，主要用到深度學習中的卷積神經網路，即CNN

準備

安裝包

pip install numpy scipy tensorflow keras

再準備一些風格圖片，和一張內容圖片

原理

為了將風格圖的風格和內容圖的內容進行融合，所生成的圖片，在內容上應當儘可能接近內容圖，在風格上應當儘可能接近風格圖

因此需要定義內容損失函式和風格損失函式，經過加權後作為總的損失函式

實現步驟如下

隨機產生一張圖片
在每輪迭代中，根據總的損失函式，調整圖片的畫素值
經過多輪迭代，得到優化後的圖片

內容損失函式

兩張圖片在內容上相似，不能僅僅靠簡單的純畫素比較

CNN具有抽象和理解影象的能力，因此可以考慮將各個卷積層的輸出作為影象的內容

以VGG19為例，其中包括了多個卷積層、池化層，以及最後的全連線層

VGG19模型結構

這裡我們使用conv4_2的輸出作為影象的內容表示，定義內容損失函式如下

L_{content}(\vec{p},\vec{x},l)=\frac{1}{2}\sum_{i,j}{(F_{ij}^{l}-P_{ij}^{l})}^2

風格損失函式

風格是一個很難說清楚的概念，可能是筆觸、紋理、結構、佈局、用色等等

這裡我們使用卷積層各個特徵圖之間的互相關作為影象的風格，以conv1_1為例

共包含64個特徵圖即feature map，或者說影象的深度、通道的個數
每個特徵圖都是對上一層輸出的一種理解，可以類比成64個人對同一幅畫的不同理解
這些人可能分別偏好印象派、現代主義、超現實主義、表現主義等不同風格
當影象是某一種風格時，可能這一部分人很欣賞，但那一部分人不喜歡
當影象是另一種風格時，可能這一部分人不喜歡，但那一部分人很欣賞
64個人之間理解的差異，可以用特徵圖的互相關表示，這裡使用Gram矩陣計算互相關
不同的風格會導致差異化的互相關結果

Gram矩陣的計算如下，如果有64個特徵圖，那麼Gram

矩陣的大小便是64*64，第i行第j列的值表示第i個特徵圖和第j個特徵圖之間的互相關，用內積計算

G_{ij}^l=\sum_k{F_{ik}^l F_{jk}^l}

風格損失函式定義如下，對多個卷積層的風格表示差異進行加權

E_l=\frac{1}{4N_l^2 M_l^2}\sum_{i,j}(G_{ij}^l-A_{ij}^l)^2

L_{style}(\vec{a},\vec{x})=\sum_{l=0}^{L}\omega_l E_l

這裡我們使用conv1_1、conv2_1、conv3_1、conv4_1、conv5_1五個卷積層，進行風格損失函式的計算，不同的權重會導致不同的遷移效果

總的損失函式

總的損失函式即內容損失函式和風格損失函式的加權，不同的權重會導致不同的遷移效果

L_{total}(\vec{p},\vec{a},\vec{x})=\alpha L_{content}(\vec{p},\vec{x})+\beta L_{style}(\vec{a},\vec{x})

TensorFlow實現

載入庫

# -*- coding: utf-8 -*-

import tensorflow as tf
import numpy as np
import scipy.io
import scipy.misc
import os
import time

def the_current_time():
	print(time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(int(time.time()))))

定義一些變數

CONTENT_IMG = 'content.jpg'
STYLE_IMG = 'style5.jpg'
OUTPUT_DIR = 'neural_style_transfer_tensorflow/'

if not os.path.exists(OUTPUT_DIR):
	os.mkdir(OUTPUT_DIR)

IMAGE_W = 800
IMAGE_H = 600
COLOR_C = 3

NOISE_RATIO = 0.7
BETA = 5
ALPHA = 100
VGG_MODEL = 'imagenet-vgg-verydeep-19.mat'
MEAN_VALUES = np.array([123.68, 116.779, 103.939]).reshape((1, 1, 1, 3))

載入VGG19模型

def load_vgg_model(path):
	'''
	Details of the VGG19 model:
	- 0 is conv1_1 (3, 3, 3, 64)
	- 1 is relu
	- 2 is conv1_2 (3, 3, 64, 64)
	- 3 is relu    
	- 4 is maxpool
	- 5 is conv2_1 (3, 3, 64, 128)
	- 6 is relu
	- 7 is conv2_2 (3, 3, 128, 128)
	- 8 is relu
	- 9 is maxpool
	- 10 is conv3_1 (3, 3, 128, 256)
	- 11 is relu
	- 12 is conv3_2 (3, 3, 256, 256)
	- 13 is relu
	- 14 is conv3_3 (3, 3, 256, 256)
	- 15 is relu
	- 16 is conv3_4 (3, 3, 256, 256)
	- 17 is relu
	- 18 is maxpool
	- 19 is conv4_1 (3, 3, 256, 512)
	- 20 is relu
	- 21 is conv4_2 (3, 3, 512, 512)
	- 22 is relu
	- 23 is conv4_3 (3, 3, 512, 512)
	- 24 is relu
	- 25 is conv4_4 (3, 3, 512, 512)
	- 26 is relu
	- 27 is maxpool
	- 28 is conv5_1 (3, 3, 512, 512)
	- 29 is relu
	- 30 is conv5_2 (3, 3, 512, 512)
	- 31 is relu
	- 32 is conv5_3 (3, 3, 512, 512)
	- 33 is relu
	- 34 is conv5_4 (3, 3, 512, 512)
	- 35 is relu
	- 36 is maxpool
	- 37 is fullyconnected (7, 7, 512, 4096)
	- 38 is relu
	- 39 is fullyconnected (1, 1, 4096, 4096)
	- 40 is relu
	- 41 is fullyconnected (1, 1, 4096, 1000)
	- 42 is softmax
	'''
	vgg = scipy.io.loadmat(path)
	vgg_layers = vgg['layers']

	def _weights(layer, expected_layer_name):
		W = vgg_layers[0][layer][0][0][2][0][0]
		b = vgg_layers[0][layer][0][0][2][0][1]
		layer_name = vgg_layers[0][layer][0][0][0][0]
		assert layer_name == expected_layer_name
		return W, b

	def _conv2d_relu(prev_layer, layer, layer_name):
		W, b = _weights(layer, layer_name)
		W = tf.constant(W)
		b = tf.constant(np.reshape(b, (b.size)))
		return tf.nn.relu(tf.nn.conv2d(prev_layer, filter=W, strides=[1, 1, 1, 1], padding='SAME') + b)

	def _avgpool(prev_layer):
		return tf.nn.avg_pool(prev_layer, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

	graph = {}
	graph['input']    = tf.Variable(np.zeros((1, IMAGE_H, IMAGE_W, COLOR_C)), dtype='float32')
	graph['conv1_1']  = _conv2d_relu(graph['input'], 0, 'conv1_1')
	graph['conv1_2']  = _conv2d_relu(graph['conv1_1'], 2, 'conv1_2')
	graph['avgpool1'] = _avgpool(graph['conv1_2'])
	graph['conv2_1']  = _conv2d_relu(graph['avgpool1'], 5, 'conv2_1')
	graph['conv2_2']  = _conv2d_relu(graph['conv2_1'], 7, 'conv2_2')
	graph['avgpool2'] = _avgpool(graph['conv2_2'])
	graph['conv3_1']  = _conv2d_relu(graph['avgpool2'], 10, 'conv3_1')
	graph['conv3_2']  = _conv2d_relu(graph['conv3_1'], 12, 'conv3_2')
	graph['conv3_3']  = _conv2d_relu(graph['conv3_2'], 14, 'conv3_3')
	graph['conv3_4']  = _conv2d_relu(graph['conv3_3'], 16, 'conv3_4')
	graph['avgpool3'] = _avgpool(graph['conv3_4'])
	graph['conv4_1']  = _conv2d_relu(graph['avgpool3'], 19, 'conv4_1')
	graph['conv4_2']  = _conv2d_relu(graph['conv4_1'], 21, 'conv4_2')
	graph['conv4_3']  = _conv2d_relu(graph['conv4_2'], 23, 'conv4_3')
	graph['conv4_4']  = _conv2d_relu(graph['conv4_3'], 25, 'conv4_4')
	graph['avgpool4'] = _avgpool(graph['conv4_4'])
	graph['conv5_1']  = _conv2d_relu(graph['avgpool4'], 28, 'conv5_1')
	graph['conv5_2']  = _conv2d_relu(graph['conv5_1'], 30, 'conv5_2')
	graph['conv5_3']  = _conv2d_relu(graph['conv5_2'], 32, 'conv5_3')
	graph['conv5_4']  = _conv2d_relu(graph['conv5_3'], 34, 'conv5_4')
	graph['avgpool5'] = _avgpool(graph['conv5_4'])
	return graph

內容損失函式

def content_loss_func(sess, model):
	def _content_loss(p, x):
		N = p.shape[3]
		M = p.shape[1] * p.shape[2]
		return (1 / (4 * N * M)) * tf.reduce_sum(tf.pow(x - p, 2))
	return _content_loss(sess.run(model['conv4_2']), model['conv4_2'])

風格損失函式

STYLE_LAYERS = [('conv1_1', 0.5), ('conv2_1', 1.0), ('conv3_1', 1.5), ('conv4_1', 3.0), ('conv5_1', 4.0)]

def style_loss_func(sess, model):
	def _gram_matrix(F, N, M):
		Ft = tf.reshape(F, (M, N))
		return tf.matmul(tf.transpose(Ft), Ft)

	def _style_loss(a, x):
		N = a.shape[3]
		M = a.shape[1] * a.shape[2]
		A = _gram_matrix(a, N, M)
		G = _gram_matrix(x, N, M)
		return (1 / (4 * N ** 2 * M ** 2)) * tf.reduce_sum(tf.pow(G - A, 2))

	return sum([_style_loss(sess.run(model[layer_name]), model[layer_name]) * w for layer_name, w in STYLE_LAYERS])

隨機產生一張初始圖片

def generate_noise_image(content_image, noise_ratio=NOISE_RATIO):
	noise_image = np.random.uniform(-20, 20, (1, IMAGE_H, IMAGE_W, COLOR_C)).astype('float32')
	input_image = noise_image * noise_ratio + content_image * (1 - noise_ratio)
	return input_image

載入圖片

def load_image(path):
	image = scipy.misc.imread(path)
	image = scipy.misc.imresize(image, (IMAGE_H, IMAGE_W))
	image = np.reshape(image, ((1, ) + image.shape))
	image = image - MEAN_VALUES
	return image

儲存圖片

def save_image(path, image):
	image = image + MEAN_VALUES
	image = image[0]
	image = np.clip(image, 0, 255).astype('uint8')
	scipy.misc.imsave(path, image)

呼叫以上函式並訓練模型

the_current_time()

with tf.Session() as sess:
	content_image = load_image(CONTENT_IMG)
	style_image = load_image(STYLE_IMG)
	model = load_vgg_model(VGG_MODEL)

	input_image = generate_noise_image(content_image)
	sess.run(tf.global_variables_initializer())

	sess.run(model['input'].assign(content_image))
	content_loss = content_loss_func(sess, model)

	sess.run(model['input'].assign(style_image))
	style_loss = style_loss_func(sess, model)

	total_loss = BETA * content_loss + ALPHA * style_loss
	optimizer = tf.train.AdamOptimizer(2.0)
	train = optimizer.minimize(total_loss)

	sess.run(tf.global_variables_initializer())
	sess.run(model['input'].assign(input_image))

	ITERATIONS = 2000
	for i in range(ITERATIONS):
		sess.run(train)
		if i % 100 == 0:
			output_image = sess.run(model['input'])
			the_current_time()
			print('Iteration %d' % i)
			print('Cost: ', sess.run(total_loss))

			save_image(os.path.join(OUTPUT_DIR, 'output_%d.jpg' % i), output_image)

在GPU上跑，花了5分鐘左右，2000輪迭代後是這個樣子

風格遷移結果tensorflow

對比原圖

上海交大廟門

Keras實現

Keras官方提供了影象風格遷移的例子

程式碼裡引入了一個total variation loss，翻譯為全變差正則，據說可以讓生成的影象更平滑

Keras相對TensorFlow封裝更高，所以實現已有的模組更方便，但需要造輪子時較麻煩
增加了全變差正則，以生成的影象作為引數
使用conv5_2計算內容損失
將內容圖作為一開始的結果，即不使用隨機產生的圖片

程式碼使用方法如下

python neural_style_transfer.py path_to_your_base_image.jpg path_to_your_reference.jpg prefix_for_results

--iter：迭代次數，預設為10
--content_weight：內容損失權重，預設為0.025
--style_weight：風格損失權重，預設為1.0
--tv_weight：全變差正則權重，預設為1.0

新建資料夾neural_style_transfer_keras

python main_keras.py content.jpg style5.jpg neural_style_transfer_keras/output

生成的圖片長這樣，10次迭代，花了1分鐘左右

風格遷移結果keras

參考

視訊講解課程

深度有趣 | 04 影象風格遷移

簡介影象風格遷移是指，將一幅內容圖的內容，和一幅或多幅風格圖的風格融合在一起，從而生成一些有意思的圖片以下是將一些藝術作品的風格，遷移到一張內容圖之後的效果我們使用TensorFlow和Keras分別來實現影象風格遷移，主要用到深度學習中的卷積神經網路，

基於PyTorch的深度學習入門教程（八）——影象風格遷移

前言本文介紹怎樣執行Neural-Style演算法。Neural-Style或者叫做Neural-Transfer，將一個內容影象和一個風格影象作為輸入，返回一個按照所選擇的風格影象加工的內容影象。原理是非常簡單的：我們定義兩個距離，一個用於內容（Dc）

影象風格遷移【老版】

深度學習目前為止最有用的東西是影象處理，我們可以用它在極早期判斷癌症，也可以用它在茫茫人海里尋找犯人，但是要我說你能寫一個小程式取悅女朋友，你就不一定能信，這一招叫藝術風格變換，就是你點選一下，就可以把你女朋友的大頭照換成一個畢加索的後現代藝術作品（當然是取代還是找打要

深度有趣 | 25 影象標題生成

簡介介紹基於注意力機制的影象標題生成模型的原理和實現原理輸入是一張圖片，輸出是一句對圖片進行描述的文字，這就是影象標題生成基本思路是先通過預訓練的影象分類模型，從某一個卷積層得到原始圖片的表示，或者稱為上下文contexts 例如從VGG19的conv5

影象風格遷移docker內實驗詳細記錄

開發平臺: Ubuntu 16.04 安裝docker-ce, docker, nvidia-docker 1.1, docker-compose 預處理: 製作資料卷 nvidia_driver_38

機器學習筆記（二十二）：TensorFlow實戰十四（影象風格遷移）

1 - 引言相信大家都使用過一種濾鏡，可以把一張照片轉換成不同風格的照片，如下圖所示：那麼我們就來利用TensorFlow來實現以下這個演算法，這個演算法出自Gatys的A Neural Algorithm of Artistic Style論文，十分有趣，讓我們來詳細的介紹一下這

【機器學習筆記26】基於VGG16的影象風格遷移

Note: 本文主要是對論文及參考文獻【1】中程式碼的理解概述該演算法的本質是利用深度卷積網路對影象輸入的抽象，主要是三部分：將風格影象輸入卷積神經網路，將某些層輸出作為風格特徵（做一次）；將內容影象輸入卷積神經網路，將某些層輸出作為內容特徵（做一

生成模型--GAN用於影象風格遷移(Neural Style)

影象風格遷移(Neural Style) 關於紋理生成與風格遷移領域，在 2015 年前所有的關於影象紋理的論文都是手動建模的。其中，紋理可以用影象區域性特徵的統計模型來描述。而影象風格遷移比紋理生成還慘。因為紋理生成至少不管生成什麼樣子的紋理都

Flora影象風格遷移App

簡介 flora是我做的一個android app，主要是為了玩玩各種有意思的模組。封裝了tensorflow lite影象風格轉化的模型，測試的時候用了兩個手機，是我跟同桌的舊手機，一款2015年的mi4，一款認不出型號的華為。在影象畫素1024*1024時，mi4光榮OOM了，華為正常，也許是因為華

pytorch實現影象風格遷移

首先定義兩個損失函式：內容損失： class Content_loss(torch.nn.Module): # weight權重控制風格的影響程度 target經過卷積獲取到的輸入影象的內容。 def __init__(self, weight, target

基於神經網路的影象風格遷移（一）

影象的風格遷移始於2015年Gates的論文“Image Style Transfer Using Convolutional Neural Networks”，所做的工作很好描述，就是由一張內容圖片和一張風格圖片進行融合之後，得到經風格渲染之後的合成圖片。示例如下

機器學習：利用卷積神經網路實現影象風格遷移 (一)

相信很多人都對之前大名鼎鼎的 Prisma 早有耳聞，Prisma 能夠將一張普通的影象轉換成各種藝術風格的影象，今天，我們將要介紹一下Prisma 這款軟體背後的演算法原理。就是發表於 2016 CVPR 一篇文章， “ Image Style Transf

基於Tensorflow的CycleGAN測試(非成對影象風格遷移：橙子--> 蘋果)

影象風格遷移有兩種大的型別，一種是成對的，一種是非成對了。成對的著名模型就是pix2pix，這種的例子，如從影像地圖轉換為向量地圖，從素描轉換為紋理圖等。這些的特點就是訓練資料集之間的成對的。而非成對的，就是如從不同物體之間的轉換，如從橙子轉換為蘋果，或者不同季節之間

影象風格遷移原理

所謂影象風格遷移，是指利用演算法學習著名畫作的風格，然後再把這種風格應用到另外一張圖片上的技術。著名的影象處理應用Prisma是利用風格遷移技術，普通使用者的照片自動變換為具有藝術家風格的圖片。一、影象風格遷移的原理 1、原始影象風格遷移的原理　　在學習原始的影象風格遷移之前，可以在先看看ImageNet

深度-影象風格變換【二】

深度卷積神經網路影象風格變換 Taylor Guo， 2017年4月23日星期日 - 4月27日星期四摘要本文介紹了深度學習方法的影象風格轉換，處理各種各樣的影象內容，保持高保真的參考風格變換。我們的方法構建於最近繪畫風格變換基礎上，用神經網路的不同網

《深度學習——Andrew Ng》第四課第四周程式設計作業_2_神經網路風格遷移

課程筆記演算法將一幅圖片分為內容+風格，有了這兩像，圖片也就確定了，所以”生成圖片主要的思想，通過兩個損失函式（內容損失+風格損失）來進行迭代更新” 遷移學習總體分為三步: 建立內容損失函式 Jcontent(C,G)Jcontent(C,G)

深度有趣 | 19 pix2pix影象翻譯

簡介介紹基於CGAN的pix2pix模型，可用於實現多種配對影象翻譯任務原理配對影象翻譯包括很多應用場景，輸入和輸出都是圖片且尺寸相同街道標註，街道實景樓房標註，樓房實景黑白圖片，上色圖片衛星地圖，簡易地圖白天，夜晚邊緣，實物 pix2p

深度卷積神經網路影象風格變換 Deep Photo Style Transfer

深度卷積神經網路影象風格變換 Taylor Guo， 2017年4月23日星期日 - 4月27日星期四摘要本文介紹了深度學習方法的影象風格轉換，處理各種各樣的影象內容，保持高保真的參考風格變換。我們的方法構建於最近繪畫風格變換基礎上，用神經網路的不同網路層從影

【神經網路與深度學習】neural-style、chainer-fast-neuralstyle影象風格轉換使用

1. 安裝我的作業系統是win10,裝了Anaconda,TensorFlow包是通過pip安裝的,中間沒什麼可說的.具體看TensorFlow官網就可以了. 2. 使用 python neural_style.py --content <content fi

深度學習之風格遷移（三）——Deep Photo Style Transfer(Fujun Luan)

前面已經介紹瞭如何利用神經網路進行風格遷移，參見部落格深度學習之風格遷移（一）——Neural Style(Gatys) 。該文介紹了怎麼把藝術作品的風格遷移到真實圖片中去，生成的圖片是帶有藝術色彩的繪畫作品。那麼現在給定兩個真實的圖片，一張作為風格圖片，一張作

深度有趣 | 04 影象風格遷移

簡介

準備

原理

內容損失函式

風格損失函式

總的損失函式

TensorFlow實現

Keras實現

參考

視訊講解課程

相關推薦