基於Tensorflow的影象風格轉換程式碼

阿新 • • 發佈：2018-11-10

影象風格轉換的概念部分，可以參考部落格：影象風格轉換(Image style transfer)
這裡是手動實現了這樣一個demo

import os
import math
import numpy as np
import tensorflow as tf
from PIL import Image
import time


# VGG 自帶的一個常量，之前VGG訓練通過歸一化，所以現在同樣需要作此操作
VGG_MEAN = [103.939, 116.779, 123.68] # rgb 三通道的均值

class VGGNet():
    '''
    建立 vgg16 網路 結構
    從模型中載入引數
    ''' 

    def __init__(self, data_dict):
        '''
        傳入vgg16模型
        :param data_dict: vgg16.npy (字典型別)
        '''
        self.data_dict = data_dict


    def get_conv_filter(self, name):
        '''
        得到對應名稱的卷積層
        :param name: 卷積層名稱
        :return: 該卷積層輸出
        '''
        return 
 tf.constant(self.data_dict[name][0], name = 'conv')

    def get_fc_weight(self, name):
        '''
        獲得名字為name的全連線層權重
        :param name: 連線層名稱
        :return: 該層權重
        '''
        return tf.constant(self.data_dict[name][0], name = 'fc')

    def get_bias(self, name):
        '''
        獲得名字為name的全連線層偏置
        :param name: 連線層名稱
        :return: 該層偏置
        ''' 

        return tf.constant(self.data_dict[name][1], name = 'bias')


    def conv_layer(self, x, name):
        '''
        建立一個卷積層
        :param x:
        :param name:
        :return:
        '''
        # 在寫計算圖模型的時候，加一些必要的 name_scope，這是一個比較好的程式設計規範
        # 可以防止命名衝突， 二視覺化計算圖的時候比較清楚
        with tf.name_scope(name):
            # 獲得 w 和 b
            conv_w = self.get_conv_filter(name)
            conv_b = self.get_bias(name)

            # 進行卷積計算
            h = tf.nn.conv2d(x, conv_w, strides = [1, 1, 1, 1], padding = 'SAME')
            '''
            因為此刻的 w 和 b 是從外部傳遞進來，所以使用 tf.nn.conv2d()
            tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu = None, name = None) 引數說明：
            input 輸入的tensor， 格式[batch, height, width, channel]
            filter 卷積核 [filter_height, filter_width, in_channels, out_channels] 
                分別是：卷積核高，卷積核寬，輸入通道數，輸出通道數
            strides 步長 卷積時在影象每一維度的步長，長度為4
            padding 引數可選擇 “SAME” “VALID”
            
            '''
            # 加上偏置
            h = tf.nn.bias_add(h, conv_b)
            # 使用啟用函式
            h = tf.nn.relu(h)
            return h


    def pooling_layer(self, x, name):
        '''
        建立池化層
        :param x: 輸入的tensor
        :param name: 池化層名稱
        :return: tensor
        '''
        return tf.nn.max_pool(x,
                              ksize = [1, 2, 2, 1], # 核引數， 注意：都是4維
                              strides = [1, 2, 2, 1],
                              padding = 'SAME',
                              name = name
                              )

    def fc_layer(self, x, name, activation = tf.nn.relu):
        '''
        建立全連線層
        :param x: 輸入tensor
        :param name: 全連線層名稱
        :param activation: 啟用函式名稱
        :return: 輸出tensor
        '''
        with tf.name_scope(name, activation):
            # 獲取全連線層的 w 和 b
            fc_w = self.get_fc_weight(name)
            fc_b = self.get_bias(name)
            # 矩陣相乘 計算
            h = tf.matmul(x, fc_w)
            #　新增偏置
            h = tf.nn.bias_add(h, fc_b)
            # 因為最後一層是沒有啟用函式ｒｅｌｕ的，所以在此要做出判斷
            if activation is None:
                return h
            else:
                return activation(h)

    def flatten_layer(self, x, name):
        '''
        展平
        :param x: input_tensor
        :param name:
        :return: 二維矩陣
        '''
        with tf.name_scope(name):
            # [batch_size, image_width, image_height, channel]
            x_shape = x.get_shape().as_list()
            # 計算後三維合併後的大小
            dim = 1
            for d in x_shape[1:]:
                dim *= d
            # 形成一個二維矩陣
            x = tf.reshape(x, [-1, dim])
            return x

    def build(self, x_rgb):
        '''
        建立vgg16 網路
        :param x_rgb: [1, 224, 224, 3]
        :return:
        '''
        start_time = time.time()
        print('模型開始建立……')
        # 將輸入影象進行處理，將每個通道減去均值
        r, g, b = tf.split(x_rgb, [1, 1, 1], axis = 3)
        '''
        tf.split(value, num_or_size_split, axis=0)用法：
        value:輸入的Tensor
        num_or_size_split:有兩種用法：
            1.直接傳入一個整數，代表會被切成幾個張量，切割的維度有axis指定
            2.傳入一個向量，向量長度就是被切的份數。傳入向量的好處在於，可以指定每一份有多少元素
        axis, 指定從哪一個維度切割
        因此，上一句的意思就是從第4維切分，分為3份，每一份只有1個元素
        '''
        # 將 處理後的通道再次合併起來
        x_bgr = tf.concat([b - VGG_MEAN[0], g - VGG_MEAN[1], r - VGG_MEAN[2]], axis = 3)

#        assert x_bgr.get_shape().as_list()[1:] == [224, 224, 3]

        # 開始構建卷積層
        # vgg16 的網路結構
        # 第一層：2個卷積層 1個pooling層
        # 第二層：2個卷積層 1個pooling層
        # 第三層：3個卷積層 1個pooling層
        # 第四層：3個卷積層 1個pooling層
        # 第五層：3個卷積層 1個pooling層
        # 第六層： 全連線
        # 第七層： 全連線
        # 第八層： 全連線

        # 這些變數名稱不能亂取，必須要和vgg16模型保持一致
        # 另外，將這些卷積層用self.的形式，方便以後取用方便
        self.conv1_1 = self.conv_layer(x_bgr, 'conv1_1')
        self.conv1_2 = self.conv_layer(self.conv1_1, 'conv1_2')
        self.pool1 = self.pooling_layer(self.conv1_2, 'pool1')

        self.conv2_1 = self.conv_layer(self.pool1, 'conv2_1')
        self.conv2_2 = self.conv_layer(self.conv2_1, 'conv2_2')
        self.pool2 = self.pooling_layer(self.conv2_2, 'pool2')

        self.conv3_1 = self.conv_layer(self.pool2, 'conv3_1')
        self.conv3_2 = self.conv_layer(self.conv3_1, 'conv3_2')
        self.conv3_3 = self.conv_layer(self.conv3_2, 'conv3_3')
        self.pool3 = self.pooling_layer(self.conv3_3, 'pool3')

        self.conv4_1 = self.conv_layer(self.pool3, 'conv4_1')
        self.conv4_2 = self.conv_layer(self.conv4_1, 'conv4_2')
        self.conv4_3 = self.conv_layer(self.conv4_2, 'conv4_3')
        self.pool4 = self.pooling_layer(self.conv4_3, 'pool4')

        self.conv5_1 = self.conv_layer(self.pool4, 'conv5_1')
        self.conv5_2 = self.conv_layer(self.conv5_1, 'conv5_2')
        self.conv5_3 = self.conv_layer(self.conv5_2, 'conv5_3')
        self.pool5 = self.pooling_layer(self.conv5_3, 'pool5')

        ''' 因為風格轉換隻需要 卷積層  的資料
        self.flatten5 = self.flatten_layer(self.pool5, 'flatten')
        self.fc6 = self.fc_layer(self.flatten5, 'fc6')
        self.fc7 = self.fc_layer(self.fc6, 'fc7')
        self.fc8 = self.fc_layer(self.fc7, 'fc8', activation = None)
        self.prob = tf.nn.softmax(self.fc8, name = 'prob')
        '''


        print('建立模型結束：%4ds' % (time.time() - start_time))

# 指定 model 路徑
vgg16_npy_pyth = './vgg16.npy'
# 內容影象 路徑
content_img_path = './shanghai_1.jpg'
# 風格影象路徑
style_img_path = './mosaic_1.jpg'

# 訓練的步數
num_steps = 500
# 指定學習率
learning_rate = 10

# 設定 兩個 引數
lambda_c = 0.1
lambda_s = 500

# 輸入 目錄
output_dir = './run_style_transfer'
if not os.path.exists(output_dir):
    os.mkdir(output_dir)


def initial_result(shape, mean, stddev):
    '''
    定義一個初始化好的隨機圖片，然後在該圖片上不停的梯度下降來得到效果。
    :param shape: 輸入形狀
    :param mean: 均值
    :param stddev: 方法
    :return: 圖片
    '''
    initial = tf.truncated_normal(shape, mean = mean, stddev = stddev) # 一個截斷的正態分佈
    '''
    tf.truncated_normal(shape, mean, stddev) 生成截斷的生態分佈函式
    如果產生的正態分佈值和均值差值大於二倍的標準差，那就重新生成。
    '''
    return tf.Variable(initial)

def read_img(img_name):
    '''
    讀取圖片
    :param img_name: 圖片路徑
    :return: 4維矩陣
    '''
    img = Image.open(img_name)
    # 影象為三通道（224， 244， 3），但是需要轉化為4維
    np_img = np.array(img) # 224, 224, 3
    np_img = np.asarray([np_img], dtype = np.int32) # 這個函式作用不太理解 (1, 224, 224, 3)
    return np_img

def gram_matrix(x):
    '''
    計算 gram 矩陣
    :param x: 特徵圖，shape：[1, width, height, channel]
    :return:
    '''
    b, w, h, ch = x.get_shape().as_list()
    # 這裡求出來的是 每一個feature map之間的相似度
    features = tf.reshape(x, [b, h * w, ch]) # 將二三維的維度合併，已組成三維
    # 相似度矩陣 方法： 將矩陣轉置為[ch, b*w], 再乘原矩陣，最後的矩陣是[ch , ch]
    # 防止矩陣數值過大，除以一個常數
    gram = tf.matmul(features, features, adjoint_a = True) / tf.constant(ch * w * h, tf.float32) # 引數3， 表示將第一個引數轉置
    return gram


# 生成一個影象，均值為127.5，方差為20
result = initial_result((1, 224, 224, 3), 127.5, 20)

# 讀取 內容影象 和 風格影象
content_val = read_img(content_img_path)
style_val = read_img(style_img_path)

content = tf.placeholder(tf.float32, shape = [1, 224, 224, 3])
style = tf.placeholder(tf.float32, shape = [1, 224, 224, 3])

# 載入模型， 注意：在python3中，需要新增一句： encoding='latin1'
data_dict = np.load(vgg16_npy_pyth, encoding='latin1').item()


# 建立這三張影象的 vgg 物件
vgg_for_content = VGGNet(data_dict)
vgg_for_style = VGGNet(data_dict)
vgg_for_result = VGGNet(data_dict)

# 建立 每個 神經網路
vgg_for_content.build(content)
vgg_for_style.build(style)
vgg_for_result.build(result)

# 提取哪些層特徵
# 需要注意的是：內容特徵抽取的層數和結果特徵抽取的層數必須相同
# 風格特徵抽取的層數和結果特徵抽取的層數必須相同
content_features = [vgg_for_content.conv1_2,
                    vgg_for_content.conv2_2,
                    # vgg_for_content.conv3_3,
                    # vgg_for_content.conv4_3,
                    # vgg_for_content.conv5_3,
                    ]

result_content_features = [vgg_for_result.conv1_2,
                          vgg_for_result.conv2_2,
                          # vgg_for_result.conv3_3,
                          # vgg_for_result.conv4_3,
                          # vgg_for_result.conv5_3
                          ]

# feature_size, [1, width, height, channel]
style_features = [# vgg_for_style.conv1_2,
                          # vgg_for_style.conv2_2,
                          # vgg_for_style.conv3_3,
                          vgg_for_style.conv4_3,
                          # vgg_for_style.conv5_3
                          ]

# 為列表中每一個元素，都計算 gram
style_gram = [gram_matrix(feature) for feature in style_features]

result_style_features = [# vgg_for_result.conv1_2,
                          # vgg_for_result.conv2_2,
                          # vgg_for_result.conv3_3,
                          vgg_for_result.conv4_3,
                          # vgg_for_result.conv5_3
                          ]

result_style_gram = [gram_matrix(feature) for feature in result_style_features]

content_loss = tf.zeros(1, tf.float32)
# 計算內容損失
# 卷積層的形狀 shape:[1, width, height, channel], 需要在三個通道上做平均
for c, c_ in zip(content_features, result_content_features):
    content_loss += tf.reduce_mean((c - c_)**2, axis = [1, 2, 3])

# 風格內容損失

style_loss = tf.zeros(1, tf.float32)
for s, s_ in zip(style_gram, result_style_gram):
    # 因為在計算gram矩陣的時候，降低了一維，所以，只需要在[1, 2]兩個維度求均值即可
    style_loss += tf.reduce_mean( (s - s_)** 2, [1, 2] )


# 總的損失函式
loss = content_loss * lambda_c + style_loss * lambda_s


train_op = tf.train.AdamOptimizer( learning_rate ).minimize(loss)


init_op = tf.global_variables_initializer()
with tf.Session() as sess:
    sess.run(init_op)
    for step in range(num_steps):
        loss_value, content_loss_value, style_loss_value, _ = \
            sess.run([loss, content_loss, style_loss, train_op],
                     feed_dict = {
                         content:content_val,
                         style:style_val
                     })
        # 因為loss_value等，是一個數組，需要通過索引將值去出
        print('step: %d, loss_value: %8.4f, content_loss: %8.4f, style_loss: %8.4f' % (step+1,
                                                                  loss_value[0],
                                                                  content_loss_value[0],
                                                                  style_loss_value[0]))
        result_img_path = os.path.join(output_dir, 'result_%05d.jpg'%(step+1))
        result_val = result.eval(sess)[0] # 將影象取出，因為之前是4維，所以需要使用一個索引0，將其取出

        result_val = np.clip(result_val, 0, 255)
        # np.clip() numpy.clip(a, a_min, a_max, out=None)[source]
        # 其中a是一個數組，後面兩個引數分別表示最小和最大值

        img_arr = np.asarray(result_val, np.uint8)
        img = Image.fromarray(img_arr)
        # 儲存影象
        img.save(result_img_path)

基於Tensorflow的影象風格轉換程式碼

影象風格轉換的概念部分，可以參考部落格：影象風格轉換(Image style transfer) 這裡是手動實現了這樣一個demo import os import math import numpy as np import tensorflow as tf from PIL im

BP神經網路基於Tensorflow的實現（程式碼註釋詳細）

BP(back propagation)神經網路是1986年由Rumelhart和McClelland為首的科學家提出的概念，是一種按照誤差逆向傳播演算法訓練的多層前饋神經網路，是目前應用最廣泛的神經網路。在一般的BP神經網路中，單個樣本有m個輸入和n個輸出，在輸入層

MUNIT訓練自己的資料集(影象風格轉換)

MUNIT是ECCV2018的一篇關於不同風格影象之間轉換的文章，是UNIT的衍生版本。作者是很大方滴，在gayhub上就可以找到munit的程式碼。 Munit做了一件說明事情呢？我們看圖就知道了：通過幾筆簡筆就可以生成真實感的影象，這就是munit的用處之一了。準確來說，muni

基於TensorFlow影象分類實現

train.py 訓練集圖片檔名稱中存在型別即可。根據需分類型別修改# 訓練集生成和# 測試集生成程式碼塊中的讀取方式。 import os import numpy as np import tensorflow as tf from network import Network from

第4門課程-卷積神經網路-第四周作業(影象風格轉換)

0- 背景所謂的風格轉換是基於一張Content影象和一張Style影象，將兩者融合，生成一張新的影象，分別兼具兩者的內容和風格。所需要的依賴如下： import os import sys import scipy.io import scipy

使用CNN做影象風格轉化+程式碼實現

18/6/13更新：由於評論區很多說效果不明顯，這是因為之前使用的是Squeezenet，且並沒有經過任何預訓練，所以效果不是很好。在這裡補上一個效果更好的、使用VGG19並經過了Imagenet預訓練的一個結構，其程式碼下載地址：vgg19_transfer相應的權重檔案可

【神經網路與深度學習】neural-style、chainer-fast-neuralstyle影象風格轉換使用

1. 安裝我的作業系統是win10,裝了Anaconda,TensorFlow包是通過pip安裝的,中間沒什麼可說的.具體看TensorFlow官網就可以了. 2. 使用 python neural_style.py --content <content fi

基於Tensorflow的CycleGAN測試(非成對影象風格遷移：橙子--> 蘋果)

影象風格遷移有兩種大的型別，一種是成對的，一種是非成對了。成對的著名模型就是pix2pix，這種的例子，如從影像地圖轉換為向量地圖，從素描轉換為紋理圖等。這些的特點就是訓練資料集之間的成對的。而非成對的，就是如從不同物體之間的轉換，如從橙子轉換為蘋果，或者不同季節之間

基於tensorflow實現影象風格的變換

Leon A. Gatys, Alexander S. Ecker, 和 Matthias Bethge 等人的論文“A Neural Algorithm of Artistic S

21個專案玩轉深度學習：基於TensorFlow的實踐詳解03—打造自己的影象識別模型

書籍原始碼：https://github.com/hzy46/Deep-Learning-21-Examples CNN的發展已經很多了，ImageNet引發的一系列方法，LeNet，GoogLeNet，VGGNet，ResNet每個方法都有很多版本的衍生，tensorflow中帶有封裝好各方法和網路的函式

第十九節、基於傳統影象處理的目標檢測與識別(詞袋模型BOW+SVM附程式碼)

在上一節、我們已經介紹了使用HOG和SVM實現目標檢測和識別，這一節我們將介紹使用詞袋模型BOW和SVM實現目標檢測和識別。一詞袋介紹詞袋模型(Bag-Of-Word)的概念最初不是針對計算機視覺的，但計算機視覺會使用該概念的升級。詞袋最早出現在神經語言程式學(NLP)和資訊檢索(IR)領域，該模型

基於Tensorflow的目標檢測（Detection）的程式碼案例詳解

這篇博文我主要闡述了基於Tensorflow的Faster RCNN在Windows上的一個Demo程式，其中，分為兩個部分，一個是訓練資料匯入部分，一個是網路架構部分開始。源程式git地址我會放在文章最後，下載後可以參考對應看一下。一、程式執行環境說明首先，我想闡述一堆巨坑，下面只要有

在python中使用opencv將RGB影象轉換為HSV及YCrCb影象（附程式碼）

【時間】2018.11.01 【題目】在python中使用opencv將RGB影象轉換為HSV及YCrCb影象（附程式碼）目錄概述一、程式碼實現二、執行結果三、關於HSV及YCrCb的一點補充 3.1HSV顏色空間 3.2 YCRCBA顏色空間

一個模型搞定所有風格轉換，直接在瀏覽器實現（demo+程式碼）

用一個模型就能實現所有型別的風格轉換！一個名為Arbitrary Image Stylization in the Browser的專案最近火起來。作者是日本小哥Reiichiro Nakano，他用TensorFlow.js在瀏覽器中構建了一個使用任意影象進行風格化的demo。不像以前

【原始碼】基於快速修補的任意圖片風格轉換

藝術風格轉換是一種影象的合成問題，其中影象的內容是以另一種風格再現的。 Artistic style transfer is an image synthesis problem where the contentof an image is reprod

基於TensorFlow的車牌識別系統 (附程式碼)

1、簡介過去幾周我一直在涉足深度學習領域，尤其是卷積神經網路模型。最近，谷歌圍繞街景多位數字識別技術釋出了一篇不錯的paper。該文章描述了一個用於提取街景門牌號的單個端到端神經網路系統。然後，作者闡述了基於同樣的網路結構如何來突破谷歌驗證碼識別系統的準確率

Deep Feature Interpolation for Image Content Changes(基於深度特徵插值的影象屬性轉換方法)

引言：我們提供了一種基於深度特徵插值的方法，一種線性資料驅動的自動化高維空間轉換的方法，就如名字所說的，DFI僅僅基於使用經過預訓練的深度卷積特徵簡單的線性插值。我們發現雖然其方法比較簡單，但是DFI能夠顯示高水準的風格轉換例如在“臉部年輕化和衰老轉化”，“戴眼鏡”，“新

機器學習筆記（二十二）：TensorFlow實戰十四（影象風格遷移）

1 - 引言相信大家都使用過一種濾鏡，可以把一張照片轉換成不同風格的照片，如下圖所示：那麼我們就來利用TensorFlow來實現以下這個演算法，這個演算法出自Gatys的A Neural Algorithm of Artistic Style論文，十分有趣，讓我們來詳細的介紹一下這

【機器學習筆記26】基於VGG16的影象風格遷移

Note: 本文主要是對論文及參考文獻【1】中程式碼的理解概述該演算法的本質是利用深度卷積網路對影象輸入的抽象，主要是三部分：將風格影象輸入卷積神經網路，將某些層輸出作為風格特徵（做一次）；將內容影象輸入卷積神經網路，將某些層輸出作為內容特徵（做一

【轉載】TensorFlow實戰——CNN（VGGNet19）——影象風格轉化

轉自http://blog.csdn.net/u011239443/article/details/73721903 這次我們要做一件比較有趣的事——講影象風格轉化。如何將一張杭州西湖圖片：將其風格轉化為和梵高的《星夜》一樣具有鮮明藝術的風格呢？先給出完整的

基於Tensorflow的影象風格轉換程式碼

相關推薦