1. 程式人生 > >OpenCV DNN(二)——Net

OpenCV DNN(二)——Net

OpenCV DNN之Net

好久沒有更新了,作為2019年的首發,希望2019年會是騰飛的一年,祝願大家2019一切都很美好,能在公眾號收貨更多的乾貨,大家能一起進步,心想事成。
上一篇博文最後留下了一個尾巴,是關於Net的setInput和forward,當時分別介紹了,這兩個函式的定義。本文暫時不深入介紹這兩個函式,從OpenCV DNN的Net類入手,拆解OpenCV中DNN的結構。本文主要介紹Net類並且提供googleNet的demo。

Net類的定義

path:opencv/modules/dnn/include/opencv2/dnn/dnn.hpp +365

這個類中定義了建立和操作網路的方法;所謂神經網路其實是一個有向無環圖(DAG),圖的頂點是層的例項,邊表示輸入輸出關係。每一個層,在網路中都有唯一的整數ID和字串名稱作為標識;同時,這個類支援副本的引用計數,也就是說副本指向同一個例項。

以下是Net類的原始碼:

class CV_EXPORTS_W_SIMPLE Net
{
public:

    CV_WRAP Net();  //!< 預設建構函式
    CV_WRAP ~Net(); //!< 預設解構函式;引用計數為0則析構

     //使用Inter model優化器的中間表示來建立網路;
     //xml是網路拓撲結構的XML配置檔案
     //bin是model的model的二進位制檔案
     //使用Inter model優化器建立網路,OpenCV會使用inter的推理引擎後端進行推理;
    CV_WRAP static Net readFromModelOptimizer(const String& xml, const String& bin);

    //測試網路中是否有layer,是否為空;若沒有layer則返回true
    CV_WRAP bool empty() const;

    //向網路中新增新的layer;
    //name是layer的名字,是唯一的;
    //type是網路的型別,卷積層還是relu等;但是必須是OpenCV支援的層,或者自己實現的,在層註冊器中註冊過的型別;
    //params是層的引數,用於初始化該層;
    //返回值為該層唯一的整數ID;若返回-1表示新增失敗
    int addLayer(const String &name, const String &type, LayerParams &params);

    //新增新層,將其第一個輸入與上一層第一個輸出相連線;
    //引數與addLayer函式相同;
    int addLayerToPrev(const String &name, const String &type, LayerParams &params);

    //轉換layer的string name ;返回整數ID;若為-1,則layer不存在
    CV_WRAP int getLayerId(const String &layer);
    //獲取layer的string name
    CV_WRAP std::vector<String> getLayerNames() const;

    //字串和整數的容器
    typedef DictValue LayerId;

    //返回指向網路中指定ID的層的指標
    //ID為整數ID或者字串ID
    CV_WRAP Ptr<Layer> getLayer(LayerId layerId);

    //返回指向特定層的輸入層的指標
    std::vector<Ptr<Layer> > getLayerInputs(LayerId layerId); 

    //連線第一個layer的輸出與第二個layer的輸入
    //outPin 第一個layer輸出的描述.
    //inpPin 第二個layer輸入的描述.
    //輸入的模板為:<layer_name>.[input_num]
    //模板層名稱的第一部分是新增層的sting名稱。如果該部分為空,則使用網路輸入偽層;
    //模板輸入編號的第二個可選部分是層輸入編號,或者是標籤編號。如果省略此部分,則將使 用第一層輸入。
    CV_WRAP void connect(String outPin, String inpPin);

    //第一層的輸出與第二層輸入相連線
    //outLayerId 第一層的識別符號
    //outNum 第一層輸出的編號(一個層可能會有多個輸出)
    //inpLayerId 第二層的識別符號
    //inpNum 第二層輸入的編號
    void connect(int outLayerId, int outNum, int inpLayerId, int inpNum);

    //設定網路輸入偽層的輸出名稱
    //每個網路都有自己的輸入偽層,id=0
    //該層僅僅儲存user的blobs,不進行任何計算
    //這一層提供了使用者資料傳遞到網路中的唯一方法
    //與任何其他層一樣,此層可以標記其輸出,而此函式提供了一種簡單的方法來實現這一點。
    CV_WRAP void setInputsNames(const std::vector<String> &inputBlobNames);

    //下面是Net中的幾個forward,上篇部落格中介紹過;在此不贅述
    CV_WRAP Mat forward(const String& outputName = String());

    CV_WRAP void forward(OutputArrayOfArrays outputBlobs, 
        const String& outputName = String());

    CV_WRAP void forward(OutputArrayOfArrays outputBlobs,
        const std::vector<String>& outBlobNames);

    CV_WRAP_AS(forwardAndRetrieve) void forward(
        CV_OUT std::vector<std::vector<Mat> >& outputBlobs,
        const std::vector<String>& outBlobNames);

    //編譯Halide layers.<Halide是由MIT、Adobe和Stanford等機構合作實現的影象處理語言,它的核心思想即解耦演算法和優化>
    //scheduler : 帶有scheduler指令的yaml檔案的路徑
    //@see setPreferableBackend
    //排程Halide後端支援的層,然後編譯
    //對於scheduler中不支援的層,或者完全不使用手動排程的層,會採用自動排程
    CV_WRAP void setHalideScheduler(const String& scheduler);

    //指定使用特定的計算平臺執行網路
    //輸入是backend的識別符號
    //如果使用Intel的推理引擎庫,DNN_BACKEND_DEFAULT預設表示
    //DNN_BACKEND_INFERENCE_ENGINE 否則是DNN_BACKEND_OPENCV.
    CV_WRAP void setPreferableBackend(int backendId);


    //指定特定的計算裝置
    //輸入是目標裝置的識別符號
    /*
     * List of supported combinations backend / target:
     * |                        | DNN_BACKEND_OPENCV | DNN_BACKEND_INFERENCE_ENGINE | DNN_BACKEND_HALIDE |
     * |------------------------|--------------------|------------------------------|--------------------|
     * | DNN_TARGET_CPU         |                  + |                            + |                  + |
     * | DNN_TARGET_OPENCL      |                  + |                            + |                  + |
     * | DNN_TARGET_OPENCL_FP16 |                  + |                            + |                    |
     * | DNN_TARGET_MYRIAD      |                    |                            + |                    |
    */
    CV_WRAP void setPreferableTarget(int targetId);

    //setInput在上篇部落格中已經介紹,在此不贅述
    CV_WRAP void setInput(InputArray blob, const String& name = "",
                      double scalefactor = 1.0, const Scalar& mean = Scalar());

    //為layer設定新的引數
    //layer的name
    //layer引數的索引(Layer::blobs array)
    //新的值 Layer::blobs
    //如果新blob的形狀與前一個形狀不同,則以下正向傳遞可能失敗
    CV_WRAP void setParam(LayerId layer, int numParam, const Mat &blob);

    //返回指定層引數的blob
    //引數同setParam
    CV_WRAP Mat getParam(LayerId layer, int numParam = 0);

    //返回具有未連線輸出的層的索引
    CV_WRAP std::vector<int> getUnconnectedOutLayers() const;
    //返回具有未連線輸出的層的名字
    CV_WRAP std::vector<String> getUnconnectedOutLayersNames() const;

    //輸出網路中所有layer的input和output的shapes
    //netInputShapes 網路輸入層中所有輸入塊的形狀
    // layersIds 返回層的ID
    //inLayersShapes 返回輸入層形狀 順序與layersIds的順序相同
    //outLayersShapes 返回輸出層形狀 順序與layersIds的順序相同
    CV_WRAP void getLayersShapes(
        const std::vector<MatShape>& netInputShapes,
        CV_OUT std::vector<int>& layersIds,
        CV_OUT std::vector<std::vector<MatShape> >& inLayersShapes,
        CV_OUT std::vector<std::vector<MatShape> >& outLayersShapes) const;

    /** @過載 */
    CV_WRAP void getLayersShapes(const MatShape& netInputShape,
        CV_OUT std::vector<int>& layersIds,
        CV_OUT std::vector<std::vector<MatShape> >& inLayersShapes,
        CV_OUT std::vector<std::vector<MatShape> >& outLayersShapes) const;

    //輸出網路中指定layer的input和output的shapes
    //netInputShape 網路輸入的shapes
    //指定layer的ID
    //inLayerShapes返回指定層input的shapes
    //outLayerShapes返回指定層output的shapes
    void getLayerShapes(const MatShape& netInputShape,
                            const int layerId,
                            CV_OUT std::vector<MatShape>& inLayerShapes,
                            CV_OUT std::vector<MatShape>& outLayerShapes) const; // FIXIT: CV_WRAP

    /** @過載 */
    void getLayerShapes(const std::vector<MatShape>& netInputShapes,
                            const int layerId,
                            CV_OUT std::vector<MatShape>& inLayerShapes,
                            CV_OUT std::vector<MatShape>& outLayerShapes) const; // FIXIT: CV_WRAP

    //計算指定input,執行整個網路的FLOPS
    //netInputShapes 所有輸入的shapes
    //返回值為FLOP
    CV_WRAP int64 getFLOPS(const std::vector<MatShape>& netInputShapes) const;
    /** 過載 */
    CV_WRAP int64 getFLOPS(const MatShape& netInputShape) const;
    
    //計算指定layer的FLOPS
    CV_WRAP int64 getFLOPS(const int layerId,
                       const std::vector<MatShape>& netInputShapes) const;
    /** 過載 */
    CV_WRAP int64 getFLOPS(const int layerId,
                       const MatShape& netInputShape) const;

    //獲取整個model中layer Type的列表
    CV_WRAP void getLayerTypes(CV_OUT std::vector<String>& layersTypes) const;

    //返回網路中指定layer Type的數量
    CV_WRAP int getLayersCount(const String& layerType) const;

    //計算儲存模型的權重和中間blob所需的位元組數
    //netInputShapes 網路所有輸入的shapes
    //weights 輸出儲存模型中所有層的權重所佔用的位元組數
    //執行模型,中間blob所需的位元組數
    void getMemoryConsumption(const std::vector<MatShape>& netInputShapes,
            CV_OUT size_t& weights, CV_OUT size_t& blobs) const; // FIXIT: CV_WRAP
    /** 過載 */
    CV_WRAP void getMemoryConsumption(const MatShape& netInputShape,
            CV_OUT size_t& weights, CV_OUT size_t& blobs) const;

    //獲取模型中指定layer儲存權重和中間blob所需的位元組數
    CV_WRAP void getMemoryConsumption(const int layerId,
            const std::vector<MatShape>& netInputShapes,
            CV_OUT size_t& weights, CV_OUT size_t& blobs) const;
    /** 過載 */
    CV_WRAP void getMemoryConsumption(const int layerId,
            const MatShape& netInputShape,
            CV_OUT size_t& weights, CV_OUT size_t& blobs) const;

    //計算模型中每一個layer,儲存權重和中間blob所需的位元組數
    //netInputShapes 網路的所有input的shapes
    //layerIds 輸出網路中所有層的layer ID
    //weights 各個層儲存權重所需的位元組數,與layersIds對應
    //blobs 各個層儲存中間blobs所需的位元組數,與layersIds對應
    void getMemoryConsumption(const std::vector<MatShape>& netInputShapes,
            CV_OUT std::vector<int>& layerIds,
            CV_OUT std::vector<size_t>& weights,
            CV_OUT std::vector<size_t>& blobs) const; // FIXIT: CV_WRAP
    /** 過載 */
    void getMemoryConsumption(const MatShape& netInputShape,
            CV_OUT std::vector<int>& layerIds,
            CV_OUT std::vector<size_t>& weights,
            CV_OUT std::vector<size_t>& blobs) const; // FIXIT: CV_WRAP
 
    //啟用或者禁用網路中的層融合
    //啟用為true;禁用為false;
    //預設為啟用的
    CV_WRAP void enableFusion(bool fusion);
    
    //返回推理的總時間和layers的時間(in ticks)
    //返回的向量中的索引對應layers ID,有些層可以與其它層融合,在這種情況下,跳過的層計時為0
    //timings 各個層的時間
    //整個model的推理時間
    CV_WRAP int64 getPerfProfile(CV_OUT std::vector<double>& timings);
 
     private:
         struct Impl;
         Ptr<Impl> impl;
     };
}

以上是整個Net中定義的功能,程式中做了簡單的註釋,某些函式會很清晰,例如addLayer,但是有的函式可能看起來不知所云;沒有關係,在後續的文章中會逐步涉及到所有函式,結合函式的定義,會更加清晰。
從對Net的生命的分析,可以看出OpenCV為推理提供了強大的功能;除了對網路的操作(例如新增不同的layers)之外,同時提供了推理平臺選擇等函式,還提供了豐富的profiling功能,可以方便的分析記憶體和耗時。

OpenCV執行googleNet

下面給出一個demo,使用openCV完成googleNet的推理;

#include "opencv2/opencv.hpp"
#include "opencv2/dnn.hpp"
#include <iostream>
#include <fstream>

using namespace cv;
using namespace cv::dnn;
using namespace std;

String modelTxt = "bvlc_googlenet.prototxt";
String modelBin = "bvlc_googlenet.caffemodel";
String labelFile = "synset_words.txt";

vector<String> readLabels();
int main(int argc, char** argv) {
    Mat testImage = imread("./space_shuttle.jpg");
    if (testImage.empty()) {
        printf("could not load image...\n");
        return -1;
    }

    //使用caffe model建立Net
    Net net = dnn::readNetFromCaffe(modelTxt, modelBin);
    if (net.empty())
    {
        std::cerr << "Can't load network by using the following files: " << std::endl;
        std::cerr << "prototxt:   " << modelTxt << std::endl;
        std::cerr << "caffemodel: " << modelBin << std::endl;
        return -1;
    }

    // 讀取分類資料
    vector<String> labels = readLabels();

    //GoogLeNet accepts only 224x224 RGB-images
    Mat inputBlob = blobFromImage(testImage, 1, Size(224, 224), Scalar(104, 117, 123), false, true);

    Mat prob;
    for (int i = 0; i < 10; i++)
    {
        // 輸入
        net.setInput(inputBlob, "data");
        // 分類預測
        prob = net.forward("prob");
    }
    //測試推理時間
    int64 totalTime = Net.getPerfProfile(NULL);
    printf("total forward time is %d\n");

    // 讀取分類索引,最大與最小值
    Mat probMat = prob.reshape(1, 1); //reshape the blob to 1x1000 matrix // 1000個分類
     Point classNumber;
     double classProb;
     minMaxLoc(probMat, NULL, &classProb, NULL, &classNumber); // 可能性最大的一個
     int classIdx = classNumber.x; // 分類索引號
     printf("\n current image classification : %s, possible : %.2f \n", labels.at(classIdx).c_str(), classProb);
 
     putText(testImage, labels.at(classIdx), Point(20, 20), FONT_HERSHEY_SIMPLEX, 0.75, Scalar(0, 0, 255), 2, 8);
     imshow("Image Category", testImage);
 
     waitKey(0);
     return 0;
 }
 
 
 /* 讀取影象的1000個分類標記文字資料 */
 vector<String> readLabels() {
     std::vector<String> classNames;
     std::ifstream fp(labelFile);
     if (!fp.is_open())
     {
         std::cerr << "File with classes labels not found: " << labelFile << std::endl;
         exit(-1);
     }
 
     std::string name;
     while (!fp.eof())
     {
         std::getline(fp, name);
         if (name.length())
             classNames.push_back(name.substr(name.find(' ') + 1));
     }
 
     fp.close();
     return classNames;
 }

歡迎關注公眾號:to_2know

在這裡插入圖片描述