caffe多工、多標籤

解決的目標問題：多分類問題，比如車輛的外形和顏色，蘋果的大小和顏色；多工：車牌角點的定位和車牌的顏色。定位在技術上屬於迴歸，車牌顏色判斷則屬於分類。

技術點

caffe預設是單輸入任務單標籤的，也就是一個樣本，其任務只有一個，標籤只有一個，比如圖片是什麼顏色，圖片是什麼物體。

# ${caffe_src_root}/tools/convert_imageset.cpp 第121行
status = ReadImageToDatum(root_folder + lines[line_id].first,
        lines[line_id].second, resize_height, resize_width, is_color,
        enc, &datum);

## 其中 ReadImageToDatum的定義如下 ${caffe_src_root}/include/caffe/util/io.hpp

bool ReadImageToDatum(const string& filename, const int label,
    const int height, const int width, const bool is_color,
    const std::string & encoding, Datum* datum);

##  ${caffe_src_root}/src/caffe/util/io.cpp 中的該函式實現，涉及到Datum的定義，需要把Datum定義修改成也要支援多標籤

bool ReadImageToDatum(const string& filename, const int label,
    const int height, const int width, const bool is_color,
    const std::string & encoding, Datum* datum) {
  cv::Mat cv_img = ReadImageToCVMat(filename, height, width, is_color);
  if (cv_img.data) {
    if (encoding.size()) {
      if ( (cv_img.channels() == 3) == is_color && !height && !width &&
          matchExt(filename, encoding) )
        return ReadFileToDatum(filename, label, datum);
      std::vector<uchar> buf;
      cv::imencode("."+encoding, cv_img, buf);
      datum->set_data(std::string(reinterpret_cast<char*>(&buf[0]),
                      buf.size()));
      datum->set_label(label);
      datum->set_encoded(true);
      return true;
    }
    CVMatToDatum(cv_img, datum);
    datum->set_label(label);
    return true;
  } else {
    return false;
  }
}

為了支援多工，多標籤，首先要解決輸入問題。比如一個樣本定義如下：

vehicle/1.jpg 0 1

修改原始碼支援多標籤

其中第一個屬性是車輛外形，0代表sedian，第二個屬性是車身顏色，1代表白色。假如圖片是60x60的RGB影象，如果是單任務多屬性輸入，一個簡單的更改方案是把ReadImageToDatum函式修改成如下定義，並修改相關的實現函式和convert_imageset.cpp
bool ReadImageToDatum(const string& filename, const vector<int> & labels,
    const int height, const int width, const bool is_color,
    const std::string & encoding, Datum* datum); 

faster rcnn採用自定義的python輸入層作用訓練輸入，輸入有多個labels，檢測目標的roi，其中bbox_targets, bbox_inside_weights, bbox_outside_weights是作為SmoothL1Loss損失函式的輸入。自定義python輸入層的原始碼參考 py-faster-rcnn/lib/roi_data_layer/
name: "VGG_ILSVRC_16_layers"
layer {
  name: 'data'
  type: 'Python'
  top: 'data'
  top: 'rois'
  top: 'labels'
  top: 'bbox_targets'
  top: 'bbox_inside_weights'
  top: 'bbox_outside_weights'
  python_param {
    module: 'roi_data_layer.layer'
    layer: 'RoIDataLayer'
    param_str: "'num_classes': 21"
  }
} 

從https://github.com/HolidayXue/CodeSnap/blob/master/convert_multilabel.cpp原始碼修改，儲存到${caffe_root}/tools/convert_multi_label_imageset.cpp，重新編譯caffe工程，在${caffe_root}目錄下執行該工具，

.build_release/tools/convert_multi_label_imageset.bin -resize_width=256 -resize_height=256 ~/my\ workspace/bounding-box-tool/mlds/train.list /train-data/vehicle-type-color-dataset/

多資料來源輸入支援多標籤

假設對於HxW的RGB影象，轉換成caffe的blob定義上1x3xHxW，對於一個任務的有n個標籤，則其blob定義是1xnx1x1，每個任務對應一個blob，？？？那麼可以在在第二維度對兩個blob進行拼接？？？

拼接之後再從第二維度對blob進行切分操作，切分出多個blob，作為每個屬性訓練任務的輸入

拼接之後進行常規的卷積操作，只是在最後的每個任務的損失函式之前的fc層再切分，如下圖

訓練

參考faster-rcnn的模型，可以看到損失函式是相互獨立的，但多了一個weight引數，猜測是caffe在訓練時，按下面的公式計算總的損失

Lt = w1*L1 + w2 * L2

faster-rcnn中經過一系列卷積層後，連線了一個ROIPooling層，再接上FC6、FC7層，從最後一個FC7層一分為2，分別接一個cls_score的FC層和名為loss_cls的SoftMaxWithLoss，接bbox_pred的FC層和名為loss_bbox的SmoothL1Loss的迴歸層

參考：

https://arxiv.org/abs/1604.02878v1

https://kpzhang93.github.io/MTCNN_face_detection_alignment/index.html?from=timeline&isappinstalled=1

https://kpzhang93.github.io/MTCNN_face_detection_alignment/paper/spl.pdf

https://github.com/happynear/MTCNN_face_detection_alignment

https://github.com/naritapandhe/Gender-Age-Classification-CNN

https://github.com/cunjian/multitask_CNN

https://zhuanlan.zhihu.com/p/22190532

https://github.com/rbgirshick/py-faster-rcnn/blob/master/models/pascal_voc/VGG16/fast_rcnn/train.prototxt

${caffe_source_root}/examples/pascal-multilabel-with-datalayer.ipynb

http://www.cnblogs.com/yymn/articles/7741741.html

https://yq.aliyun.com/ziliao/572047

https://blog.csdn.net/u013010889/article/details/53098346

caffe網路線上視覺化工具: http://ethereon.github.io/netscope/#/editor

相關推薦

caffe多工、多標籤

解決的目標問題：多分類問題，比如車輛的外形和顏色，蘋果的大小和顏色；多工：車牌角點

認識多工、多程序、單執行緒、多執行緒

要認識多執行緒就要從作業系統的原理說起。　　以前古老的DOS作業系統(V 6.22)是單任務的，還沒有執行緒的概念，系統在每次只能做一件事情。比如你在copy東西的時候不能rename檔名。為了提高系統的利用效率，採用批處理來批量執行任務。　　現在的作業系統都是多工作業

caffe：contact及slice層用法說明實現多資料、多標籤、多工

contact解析 Concat層的作用就是將兩個及以上的特徵圖按照在channel或num維度上進行拼接，並沒有eltwise層的運算操作，舉例，如果說在channel維度上進行拼接的話，首先除了channel維度可以不一樣，其餘維度必須一致（也就是num、H、W一致），以Caffe為例，介紹

Linux 多工程式設計——多程序控制：結束程序、等待程序結束

結束程序首先，我們回顧一下 C 語言中 continue, break, return 的作用： continue: 結束本次迴圈 break: 跳出整個迴圈，或跳出 switch() 語句 return: 結束當前函式而我們可以通過 exit() 或 _exit() 來結束當前

Windows Server 2012（單林、多樹、多站點）AD 部署系列（五）創建樹域

windows server 域樹域站點多域環境本章博文開始在BJ、SH、GZ站點為林bicionline.org 創建樹域控及調配的相關DNS等功能。網絡配置：1、為BJ站點ds04、SH站點pdc02和GZ站點ad02配置網絡， IP配置分別如下：（註：在創建域樹環境時，確

python之旅：面向對象之多態、多態性

進一步外觀 call() 使用實例是我 tex methods 綁定操作一多態多態指的是一類事物有多種形態 eg：動物有多種形態：貓，狗，豬 class Animal: #動物類 def eat(self): #吃

多繼承、多態

In eve 多繼承編程方式 body 新增 intro 定義 obj 1.多繼承class Base(object): def test(self): print("----Base")class A(Base): def test(self)

多工序、多機臺(產線)環境下的排程要點

個性即使個性化 hang 等待機制範圍暫時 org 關於生產計劃排程的種類及其特性釋義：文中提到的資源，是指需要完成一個生產作業（或稱任務，生產任務）所需的生產條件，例如機臺、原料等，稱為廣義資源。對於生產計劃，常見有以下四種類型：單一工序，單一資源種

【17】有關python面向對象編程的提高【多繼承、多態、類屬性、動態添加與限制添加屬性與方法、@property】

爸爸 mce turn object get 寫法 pri import sel 一、多繼承案例1：小孩繼承自爸爸，媽媽。在程序入口模塊再創建實例調用執行 #father模塊 class Father(object): def __init__(self,mon

併發伺服器的實現（多程序、多執行緒...）

一、多程序實現併發伺服器程式碼如下：multiprocess_server.c /* ============================================================================ Name : TCPServ

DEVOPS-01多程序、多執行緒程式設計

一、多執行緒程式設計 1.1 forking工作原理 1.1.1 什麼是forking 1. fork(分岔)在Linux系統中使用非常廣泛 2. 當某一命令執行時,父程序(當前程序)fork出一個子程序 3. 父程序將自身資源拷貝一份,命令在子程序中執行時,就具

Linux 多工程式設計——多程序建立：fork() 和vfork() 函式詳解

一、fork() 函式詳解需要的標頭檔案： #include <sys/types.h> #include <unistd.h> pid_t fork(void); 功能：用於從一個已存在的程序中建立一個新程序，新程序稱為子程序，原程序稱為父程序。

gdb 除錯多程序、多執行緒的小栗子

gdb除錯中多執行緒是一個難點，涉及到諸多執行緒的相互影響。對於多執行緒之間的相互影響，這個不在這個小栗子的闡述範圍內。這是除錯一個簡單的子程序中的子執行緒的小栗子。使用材料 /*這是一個演示gdb除錯子程序、子執行緒的檔案 */ #include <stdio.h>

ES 多channel、多sink

1.配置檔案 a1.sources = r1 a1.sinks = k1 k2 k3 a1.channels = c1 c2 c3 # Describe/configure the source a1.sources.r1.type = jsyh.forward.source.kafka.K

(D19)Python-封裝、多型、多繼承、重寫

封裝 enclosure 封裝是指隱藏類的實現細節，讓使用者不用關心這些細節封裝的目的是讓使用者通過儘可能少的方法(或屬性)操作物件私有屬性和方法: python類中以雙下劃線(’__’)開頭，不以雙下劃線結尾的識別符號為私有成員，

Python多程序、多執行緒、多協程的理解

首先我們來了解下python中的程序，執行緒以及協程！從計算機硬體角度：計算機的核心是CPU，承擔了所有的計算任務。一個CPU，在一個時間切片裡只能執行一個程式。從作業系統的角度：程序和執行緒，都是一種CPU的執行單元。程序：表示一個程式的上下文執行活

PX4概念學習（1）——Linux下多程序、多執行緒基礎

【學習Freeape大神的uORB時，乘機補補有關Linux多程序、多執行緒的知識】 uORB(Micro Object Request Broker,微物件請求代理器)是PX4/Pixhawk系統中非常重要且關鍵的一個模組，它肩負了整個系統的資料傳輸任務，所有的感測器資料

golangWeb框架---github.com/gin-gonic/gin學習八(監聽多埠、多型別的struct模型繫結)

監聽多埠如何利用gin實現監聽多埠 package main import ( "log" "net/http" "time" "github.com/gin-gonic/gin" "golang.org/x/sync/errgroup" )

python celery多worker、多隊列、定時任務

end fig 多隊列 erb minutes copy src span task 多worker、多隊列 celery是一個分布式的任務調度模塊，那麽怎麽實現它的分布式功能呢，celery可以支持多臺不同的計算機執行不同的任務或者相同的任務。如果要說celery的分布

Linux下多程序、多執行緒基礎

【學習Freeape大神的uORB時，乘機補補有關Linux多程序、多執行緒的知識】 uORB(Micro Object Request Broker,微物件請求代理器)是PX4/Pixhawk系統中非常重要且關鍵的一個模組，它肩負了整個系統的資料傳輸任務，所有的感測器資料、GPS、PPM訊