Tensorflow+SSD使用原始權重並修改分類網路進行單目標檢測

阿新 • • 發佈：2018-11-21

本文的原始碼地址是https://github.com/balancap/SSD-Tensorflow
由於專案需要，需要對場景中的人體進行檢測，但是原始的SSD網路是20種類別的網路，而只需要獲取人的分類即可，當我按照其說明在具有兩塊1080Ti的伺服器上訓練8個小時，損失值降低到10左右，但是，其效果不如原始的權重引數的效果，因此，想修改網路連線，只保留最後一層的分類網路中對人體的分類。
步驟如下：

從github中下載上述例子，測試給定的note_books.ipynb,可以實現多目標檢測。最好將其轉換成note_books.py程式
在note_books.py中列印可訓練的變數名稱（讀論文和程式也是可以看出來的），部分如下：

注意，上圖中名稱為***.box/conv_cls/biases和***.box/conv_cls/weights是需要提取的最後的分類引數，也是網路需要修改的地方。
進行分類的網路在ssd_vgg_300.py中的def ssd_multibox_layer（）函式中，原程式的weights和biases變數使用tensorflow的slim同時實現，無法手動獲取，因此，先將slim方式轉換成原始的tensorflow方式。
有關於saver進行tensorflow儲存與恢復參考前面的文章：

https://blog.csdn.net/weixin_40100431/article/details/82860478

    channels=[512,1024,512,256,256,256]
    ###這裡的chanels是輸入網路的通道數目，需要在輸入函式中新增一個變數i，確定是哪一個網路輸入進來
    weights = tf.Variable(tf.truncated_normal([3, 3,  channels[i] , num_cls_pred], dtype=tf.float32, stddev=1e-1),
                          name='conv_cls/weights')
    biases = tf.Variable(tf.constant(0.0, shape=[num_cls_pred], dtype=tf.float32), name='conv_cls/biases')
    ####
    weights1 = weights
    biases1 = biases
    ####上面這兩行是重要的部分，後面修改兩行進行提取網路引數和修改分類網路使之變成單目標檢測
    ##首先宣告變數，名稱要和上一步圖中的名稱一致，否則，在ssd_notebook中恢復引數會由於名稱不一致而報錯。
    tmp = tf.nn.conv2d(net, weights1, strides=[1, 1, 1, 1], padding='SAME')
    # cls_pred=tf.nn.relu(tf.nn.bias_add(tmp,biases))
    cls_pred = tf.nn.bias_add(tmp, biases1)

提取引數和修改分類網路，SSD網路設定了anchors，每一個點生成4個或者6個anchors，程式碼中這4個或者6個並不是按照同一類的順序儲存，而是先儲存第一個anchors的21類引數，然後儲存第二個anchors，以此類推，在pascalvoc_2007.py中，人是第15類，然後修改上面所說的兩行程式碼為。
有關於tf.concat函式的使用請參考前面的文章：

https://blog.csdn.net/weixin_40100431/article/details/82858085

 for ii in range(num_cls_pred*2):
         if ii==0:
             weights1 = tf.concat([weights[0:3, 0:3, 0:channels[i], ii * num_classes:ii * num_classes + 1],
                                 weights[0:3, 0:3, 0:channels[i], ii * num_classes + 15:ii * num_classes + 16]], 3)
             biases1 = tf.concat(
                 [biases[ii * num_classes:ii * num_classes + 1], biases[ii * num_classes + 15:ii * num_classes + 16]], 0)
         else:
             weights1 = tf.concat([weights1,weights[0:3, 0:3, 0:channels[i], ii * num_classes:ii * num_classes + 1],
                                   weights[0:3, 0:3, 0:channels[i], ii * num_classes + 15:ii * num_classes + 16]], 3)
             biases1 = tf.concat(
                 [biases1,biases[ii * num_classes:ii * num_classes + 1], biases[ii * num_classes + 15:ii * num_classes + 16]], 0)
            cls_pred = tf.reshape(cls_pred,
                          tensor_shape(cls_pred, 4)[:-1] + [num_anchors, 2])  #cls_pred is [N,W,H,num_anchors*classes] before,here become [N,W,H,num_anchors,classes]
                          ###這裡將21類修改成2類

note：在ssd_notebook.py中有一個21類的引數，不需要修改，在函式的具體實現上並沒有使用。
實驗效果圖如下：
在這裡插入圖片描述

在這裡插入圖片描述

note：建議結合原始碼和論文進行理解，才能對程式碼進行更好的操作和修改。
修改後的程式碼：在ssd_vgg_300.py中替換下面的函式即可，如有問題，請留言交流

def ssd_multibox_layer(inputs,
                       num_classes,
                       sizes,
                       i,
                       ratios=[1],
                       normalization=-1,
                       bn_normalization=False,
                       ):
    """Construct a multibox layer, return a class and localization predictions.
    """
    channels=[512,1024,512,256,256,256]
    net = inputs
    if normalization > 0:
        net = custom_layers.l2_normalization(net, scaling=True)
    # Number of anchors.
    num_anchors = len(sizes) + len(ratios)  ###num_anchors=[4,6,6,6,4,4]

    # Location.
    num_loc_pred = num_anchors * 4
    loc_pred = slim.conv2d(net, num_loc_pred, [3, 3], activation_fn=None,
                           scope='conv_loc')
    loc_pred = custom_layers.channel_to_last(loc_pred)#data_format NHWC==[batch,height,width,channels];NCHW=[batcg,channles,height,width]
    loc_pred = tf.reshape(loc_pred,
                          tensor_shape(loc_pred, 4)[:-1]+[num_anchors, 4])   #loc_pred is [N,W,H,num_anchors*4] before,here become [N,W,H,num_anchors,4]

    # Class prediction.
    # num_cls_pred = num_anchors * num_classes
    # cls_pred = slim.conv2d(net, num_cls_pred, [3, 3], activation_fn=None,
    #                        scope='conv_cls')
    # cls_pred = custom_layers.channel_to_last(cls_pred)



    ##  add codes
    num_cls_pred = num_anchors * num_classes  ##


    weights = tf.Variable(tf.truncated_normal([3, 3, channels[i], num_cls_pred], dtype=tf.float32, stddev=1e-1),
                          name='conv_cls/weights')
    biases = tf.Variable(tf.constant(0.0, shape=[num_cls_pred], dtype=tf.float32), name='conv_cls/biases')
    #sa usual
    # weights1 = weights
    # #weights = weights[0:3, 0:3, 0:channels[i], 0:num_cls_pred]
    # biases1 = biases
    ###only detect person
    for ii in range(num_cls_pred*2):
        if ii==0:
            weights1 = tf.concat([weights[0:3, 0:3, 0:channels[i], ii * num_classes:ii * num_classes + 1],
                                  weights[0:3, 0:3, 0:channels[i], ii * num_classes + 15:ii * num_classes + 16]], 3)
            biases1 = tf.concat(
                [biases[ii * num_classes:ii * num_classes + 1], biases[ii * num_classes + 15:ii * num_classes + 16]], 0)
        else:
            weights1 = tf.concat([weights1,weights[0:3, 0:3, 0:channels[i], ii * num_classes:ii * num_classes + 1],
                                  weights[0:3, 0:3, 0:channels[i], ii * num_classes + 15:ii * num_classes + 16]], 3)
            biases1 = tf.concat(
                [biases1,biases[ii * num_classes:ii * num_classes + 1], biases[ii * num_classes + 15:ii * num_classes + 16]], 0)
    ###


    # print("*****************")
    # print(weights.name)
    # print(weights.get_shape)
    # print(biases.name)
    # print(biases.get_shape)
    tmp = tf.nn.conv2d(net, weights1, strides=[1, 1, 1, 1], padding='SAME')
    # cls_pred=tf.nn.relu(tf.nn.bias_add(tmp,biases))
    cls_pred = tf.nn.bias_add(tmp, biases1)
    #print(
    #    cls_pred.get_shape)  ###cls_pred.get_shape==(1,38,38,84)(1,19,19,126)(1,10,10,126)(1,5,5,126)(1,3,3,84)(1,1,1,84)
    # cls_pred = tf.reshape(cls_pred,
    #                         tensor_shape(cls_pred, 4)[:-1]+[num_anchors, num_classes])
    cls_pred = tf.reshape(cls_pred,
                          tensor_shape(cls_pred, 4)[:-1] + [num_anchors, 2])  #cls_pred is [N,W,H,num_anchors*classes] before,here become [N,W,H,num_anchors,classes]
    #print(cls_pred)  # cls_pred=(1,38,38,4,21)(1,19,19,6,21)(1,10,10,6,21)(1,5,5,6,21)(1,3,3,4,21)(1,1,1,4,21)
    return cls_pred, loc_pred


def ssd_net(inputs,
            num_classes=SSDNet.default_params.num_classes,
            feat_layers=SSDNet.default_params.feat_layers,
            anchor_sizes=SSDNet.default_params.anchor_sizes,
            anchor_ratios=SSDNet.default_params.anchor_ratios,
            normalizations=SSDNet.default_params.normalizations,
            is_training=True,
            dropout_keep_prob=0.5,
            prediction_fn=slim.softmax,
            reuse=None,
            scope='ssd_300_vgg'):
    """SSD net definition.
    """
    # if data_format == 'NCHW':
    #     inputs = tf.transpose(inputs, perm=(0, 3, 1, 2))

    # End_points collect relevant activations for external use.
    end_points = {}
    with tf.variable_scope(scope, 'ssd_300_vgg', [inputs], reuse=reuse):
        # Original VGG-16 blocks.
        net = slim.repeat(inputs, 2, slim.conv2d, 64, [3, 3], scope='conv1')  ### create model variable,which can be used train or finetune .
        ##  ===
        ##net=slim.conv2d(inputs,64,[3,3],scope='conv1')
        ##net=slim.conv2d(net,64,[3,3],scope='conv1')
        end_points['block1'] = net
        net = slim.max_pool2d(net, [2, 2], scope='pool1')  #150*150*64
        # Block 2.
        net = slim.repeat(net, 2, slim.conv2d, 128, [3, 3], scope='conv2')
        end_points['block2'] = net
        net = slim.max_pool2d(net, [2, 2], scope='pool2') #75*75*128
        # Block 3.
        net = slim.repeat(net, 3, slim.conv2d, 256, [3, 3], scope='conv3')
        end_points['block3'] = net
        net = slim.max_pool2d(net, [2, 2], scope='pool3')# 38*38*256
        # Block 4.
        net = slim.repeat(net, 3, slim.conv2d, 512, [3, 3], scope='conv4')
        end_points['block4'] = net
        net = slim.max_pool2d(net, [2, 2], scope='pool4')# 19*19*512
        # Block 5.
        net = slim.repeat(net, 3, slim.conv2d, 512, [3, 3], scope='conv5')
        end_points['block5'] = net
        net = slim.max_pool2d(net, [3, 3], stride=1, scope='pool5')#19*19*512

        # Additional SSD blocks.
        # Block 6: let's dilate the hell out of it!
        net = slim.conv2d(net, 1024, [3, 3], rate=6, scope='conv6')#19*19*1024
        end_points['block6'] = net
        net = tf.layers.dropout(net, rate=dropout_keep_prob, training=is_training)
        # Block 7: 1x1 conv. Because the fuck.
        net = slim.conv2d(net, 1024, [1, 1], scope='conv7')#19*19*1024
        end_points['block7'] = net
        net = tf.layers.dropout(net, rate=dropout_keep_prob, training=is_training)

        # Block 8/9/10/11: 1x1 and 3x3 convolutions stride 2 (except lasts).
        end_point = 'block8'
        with tf.variable_scope(end_point):
            net = slim.conv2d(net, 256, [1, 1], scope='conv1x1')
            net = custom_layers.pad2d(net, pad=(1, 1))
            net = slim.conv2d(net, 512, [3, 3], stride=2, scope='conv3x3', padding='VALID')###10*10*512
        end_points[end_point] = net
        end_point = 'block9'
        with tf.variable_scope(end_point):
            net = slim.conv2d(net, 128, [1, 1], scope='conv1x1')
            net = custom_layers.pad2d(net, pad=(1, 1))
            net = slim.conv2d(net, 256, [3, 3], stride=2, scope='conv3x3', padding='VALID')###5*5*256
        end_points[end_point] = net
        end_point = 'block10'
        with tf.variable_scope(end_point):
            net = slim.conv2d(net, 128, [1, 1], scope='conv1x1')
            net = slim.conv2d(net, 256, [3, 3], scope='conv3x3', padding='VALID') ###
        end_points[end_point] = net
        end_point = 'block11'
        with tf.variable_scope(end_point):
            net = slim.conv2d(net, 128, [1, 1], scope='conv1x1')
            net = slim.conv2d(net, 256, [3, 3], scope='conv3x3', padding='VALID')
        end_points[end_point] = net

        # Prediction and localisations layers.
        predictions = []
        logits = []
        localisations = []
        for i, layer in enumerate(feat_layers):
            with tf.variable_scope(layer + '_box'):   #### creat context
                p, l = ssd_multibox_layer(end_points[layer],
                                          num_classes,
                                          anchor_sizes[i],
                                          i,
                                          anchor_ratios[i],
                                          normalizations[i])
            predictions.append(prediction_fn(p))###softmax,to predict class
            logits.append(p)
            localisations.append(l)

        return predictions, localisations, logits, end_points
ssd_net.default_image_size = 300

Tensorflow+SSD使用原始權重並修改分類網路進行單目標檢測

本文的原始碼地址是https://github.com/balancap/SSD-Tensorflow 由於專案需要，需要對場景中的人體進行檢測，但是原始的SSD網路是20種類別的網路，而只需要獲取人的分類即可，當我按照其說明在具有兩塊1080Ti的伺服器上訓練8個小時，損失值降低到10左右

計算機視覺（八）：提取Cifar-10資料集的HOG、HSV特徵並使用神經網路進行分類

1 - 引言之前我們都是將整張圖片輸入進行分類，要想進一步提升準確率，我們就必須提取出圖片更容易區分的特徵，再將這些特徵當做特徵向量進行分類。在之前我們學了一些常用的影象特徵，在這次實驗中，我們使用了兩種特徵梯度方向直方圖（HOG）顏色直方圖（HSV）

Faster R-CNN：利用區域提案網路實現實時目標檢測論文翻譯

Faster R-CNN論文地址:Faster R-CNN Faster R-CNN專案地址:https://github.com/ShaoqingRen/faster_rcnn 摘要目前最先進的目標檢測網路需要先用區域提案演算法推測目標位置，像SPPnet1和Fast R-CNN2

Faster R-CNN：用區域提案網路實現實時目標檢測

摘要最先進的目標檢測網路依賴於區域建議演算法來假設物體的位置.像sppnet[1]和快速r-cnn[2]這樣的進步減少了這些檢測網路的執行時間，將區域提案計算暴露為瓶頸。在本文中，我們引入了一個區域提案網路(RPN)，它與檢測網路共享全影象卷積特徵，從而實現了幾乎免費的區域提案。RPN是一個完

在opencv3中利用SVM進行影象目標檢測和分類

採用滑鼠事件，手動選擇樣本點，包括目標樣本和背景樣本。組成訓練資料進行訓練 1、主函式 #include "stdafx.h" #include "opencv2/opencv.hpp" using namespace cv; using namespace cv::ml; Mat img,image

自己訓練SVM分類器進行HOG行人檢測

正樣本來源是INRIA資料集中的96*160大小的人體圖片，使用時上下左右都去掉16個畫素，擷取中間的64*128大小的人體。 SVM使用的是OpenCV自帶的CvSVM類。首先計算正負樣本影象的HOG描述子，組成一個特徵向量矩陣，對應的要有一個指定每個特徵向量的類別的

tensorflow基本教程8：手寫體分類卷積神經網路

import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data #number 1 to 10 data mnist=input_data.read_data_sets('MNIST_data'

Tensorflow學習教程------利用卷積神經網路對mnist資料集進行分類_利用訓練好的模型進行分類

#coding:utf-8 import tensorflow as tf from PIL import Image,ImageFilter from tensorflow.examples.tutorials.mnist import input_data def imageprepare(ar

Fedora安裝並修改網路

1. 使用Rufus將下載好的ISO檔案寫入硬碟 2. 插入U盤，設定U盤啟動安裝 3. 修改網路 // 修改IP root# cd /etc/sysconfig/network-scripts/ root# vi ifcfg-eno1 BOOTPROTO=static O

基於Tensorflow的cifar10分類網路模型

Tensorflow算是老牌深度學習框架了，但是相比Pytorch來說，會稍微顯得有些笨重，主要是計算必須在session中進行，在編寫某些更為靈活的網路結構時，會比較麻煩。不過Tensorflow對分散式訓練的支援較好，所以如果是需要使用分散式

keras 處理文字，分類，數值資料，並新增進網路的步驟和方法

一，讀取資料：主要使用pandas 讀取，以後考慮使用其他方法（libsvm等）二，獲取訓練集和測試集：這一步主要是劃分資料集，drop()掉訓練集裡的預測那一列三，處理缺失值：可以使用fillna(value,inplace)來把缺失值補全四：送入網

centos7同步網路時間並修改時區

安裝ntpdate工具 # yum -y install ntp ntpdate 設定系統時區為上海 # timedatectl set-timezone Asia/Shanghai 設定系統時間與網路時間同步 # ntpdate 0.asia.pool.ntp.org #

使用TensorFlow slim資料夾當中的inception_resnet_v2網路訓練自己的分類資料集

每個資料夾存放一種類別的圖片資料夾名稱即為類別名稱轉換資料集為TFRecords格式的檔案：進入下載以後的資料夾中/models/research/slim/，使用pycharm開啟slim資料夾，開啟轉換格式的檔案download_and_c

tensorflow將訓練好的模型freeze,即將權重固化到圖裡面,並使用該模型進行預測

ML主要分為訓練和預測兩個階段,此教程就是將訓練好的模型freeze並儲存下來.freeze的含義就是將該模型的圖結構和該模型的權重固化到一起了.也即載入freeze的模型之後,立刻能夠使用了。下面使用一個簡單的demo來詳細解釋該過程, 一、首先執行指令碼tiny_mo

tensorflow的基本用法(五)——建立神經網路並訓練

文章作者：Tyan 部落格：noahsnail.com | CSDN | 簡書本文主要是介紹利用tensorflow建立一個簡單的神經網路並進行訓練。 #!/usr/bin/env

TensorFlow遷移學習-使用谷歌訓練好的Inception-v3網路進行分類

遷移學習是將一個數據集上訓練好的網路模型快速轉移到另外一個數據集上，可以保留訓練好的模型中倒數第一層之前的所有引數，替換最後一層即可，在最後層之前的網路層稱之為瓶頸層。下面程式碼是使用TensorFlow將ImageNet上訓練好的Inception-v

TensorFlow中對訓練後的神經網路引數（權重、偏置）提取

基於TensorFlow可以輕而易舉搭建一個神經網路，而且很好地支援GPU加速訓練。但基於TensorFlow的預測過程，往往需要在嵌入式裝置上才能得以應用。對於我目前做的工作而言，用TF搭建神經網路以及用GPU加速訓練過程的主要用處就是：獲取訓練後的引數（

tensorflow將訓練好的模型freeze,即將權重固化到圖裡面,並使用該模型進行預測（tf.graph_util.convert_variables_to_constants函式）

我們很多時候需要儲存tensorflow模型的pb檔案，這時用tf.graph_util.convert_variables_to_constants函式會非常方便。 1.訓練網路：fully_conected.py import argparse im

搭建 MobileNet-SSD 開發環境並使用 VOC 數據集訓練 TensorFlow 模型

com 進入基礎上 .tar.gz pre .sh naconda -m linu 原文地址：搭建 MobileNet-SSD 開發環境並使用 VOC 數據集訓練 TensorFlow 模型 0x00 環境 OS: Ubuntu 1810 x64 Anaconda: 4.

git 提交新項目，並修改用戶名以及提交郵箱

github php 本地有一個項目myweb，裏面有.git目錄。線上新建了git倉庫,gitweb。現在要把myweb提交到線上。直接在myweb目錄下，以免沖突，提交不了。所以我用了copy的方法。1.先把項目myweb的 .git目錄，刪除。 2.在/data目錄下，git clone線上的倉庫

Tensorflow+SSD使用原始權重並修改分類網路進行單目標檢測

相關推薦