OpenCV DNN(二)——Net
阿新 • • 發佈:2019-01-01
OpenCV DNN之Net
好久沒有更新了,作為2019年的首發,希望2019年會是騰飛的一年,祝願大家2019一切都很美好,能在公眾號收貨更多的乾貨,大家能一起進步,心想事成。
上一篇博文最後留下了一個尾巴,是關於Net的setInput和forward,當時分別介紹了,這兩個函式的定義。本文暫時不深入介紹這兩個函式,從OpenCV DNN的Net類入手,拆解OpenCV中DNN的結構。本文主要介紹Net類並且提供googleNet的demo。
Net類的定義
path:opencv/modules/dnn/include/opencv2/dnn/dnn.hpp +365
這個類中定義了建立和操作網路的方法;所謂神經網路其實是一個有向無環圖(DAG),圖的頂點是層的例項,邊表示輸入輸出關係。每一個層,在網路中都有唯一的整數ID和字串名稱作為標識;同時,這個類支援副本的引用計數,也就是說副本指向同一個例項。
以下是Net類的原始碼:
class CV_EXPORTS_W_SIMPLE Net { public: CV_WRAP Net(); //!< 預設建構函式 CV_WRAP ~Net(); //!< 預設解構函式;引用計數為0則析構 //使用Inter model優化器的中間表示來建立網路; //xml是網路拓撲結構的XML配置檔案 //bin是model的model的二進位制檔案 //使用Inter model優化器建立網路,OpenCV會使用inter的推理引擎後端進行推理; CV_WRAP static Net readFromModelOptimizer(const String& xml, const String& bin); //測試網路中是否有layer,是否為空;若沒有layer則返回true CV_WRAP bool empty() const; //向網路中新增新的layer; //name是layer的名字,是唯一的; //type是網路的型別,卷積層還是relu等;但是必須是OpenCV支援的層,或者自己實現的,在層註冊器中註冊過的型別; //params是層的引數,用於初始化該層; //返回值為該層唯一的整數ID;若返回-1表示新增失敗 int addLayer(const String &name, const String &type, LayerParams ¶ms); //新增新層,將其第一個輸入與上一層第一個輸出相連線; //引數與addLayer函式相同; int addLayerToPrev(const String &name, const String &type, LayerParams ¶ms); //轉換layer的string name ;返回整數ID;若為-1,則layer不存在 CV_WRAP int getLayerId(const String &layer); //獲取layer的string name CV_WRAP std::vector<String> getLayerNames() const; //字串和整數的容器 typedef DictValue LayerId; //返回指向網路中指定ID的層的指標 //ID為整數ID或者字串ID CV_WRAP Ptr<Layer> getLayer(LayerId layerId); //返回指向特定層的輸入層的指標 std::vector<Ptr<Layer> > getLayerInputs(LayerId layerId); //連線第一個layer的輸出與第二個layer的輸入 //outPin 第一個layer輸出的描述. //inpPin 第二個layer輸入的描述. //輸入的模板為:<layer_name>.[input_num] //模板層名稱的第一部分是新增層的sting名稱。如果該部分為空,則使用網路輸入偽層; //模板輸入編號的第二個可選部分是層輸入編號,或者是標籤編號。如果省略此部分,則將使 用第一層輸入。 CV_WRAP void connect(String outPin, String inpPin); //第一層的輸出與第二層輸入相連線 //outLayerId 第一層的識別符號 //outNum 第一層輸出的編號(一個層可能會有多個輸出) //inpLayerId 第二層的識別符號 //inpNum 第二層輸入的編號 void connect(int outLayerId, int outNum, int inpLayerId, int inpNum); //設定網路輸入偽層的輸出名稱 //每個網路都有自己的輸入偽層,id=0 //該層僅僅儲存user的blobs,不進行任何計算 //這一層提供了使用者資料傳遞到網路中的唯一方法 //與任何其他層一樣,此層可以標記其輸出,而此函式提供了一種簡單的方法來實現這一點。 CV_WRAP void setInputsNames(const std::vector<String> &inputBlobNames); //下面是Net中的幾個forward,上篇部落格中介紹過;在此不贅述 CV_WRAP Mat forward(const String& outputName = String()); CV_WRAP void forward(OutputArrayOfArrays outputBlobs, const String& outputName = String()); CV_WRAP void forward(OutputArrayOfArrays outputBlobs, const std::vector<String>& outBlobNames); CV_WRAP_AS(forwardAndRetrieve) void forward( CV_OUT std::vector<std::vector<Mat> >& outputBlobs, const std::vector<String>& outBlobNames); //編譯Halide layers.<Halide是由MIT、Adobe和Stanford等機構合作實現的影象處理語言,它的核心思想即解耦演算法和優化> //scheduler : 帶有scheduler指令的yaml檔案的路徑 //@see setPreferableBackend //排程Halide後端支援的層,然後編譯 //對於scheduler中不支援的層,或者完全不使用手動排程的層,會採用自動排程 CV_WRAP void setHalideScheduler(const String& scheduler); //指定使用特定的計算平臺執行網路 //輸入是backend的識別符號 //如果使用Intel的推理引擎庫,DNN_BACKEND_DEFAULT預設表示 //DNN_BACKEND_INFERENCE_ENGINE 否則是DNN_BACKEND_OPENCV. CV_WRAP void setPreferableBackend(int backendId); //指定特定的計算裝置 //輸入是目標裝置的識別符號 /* * List of supported combinations backend / target: * | | DNN_BACKEND_OPENCV | DNN_BACKEND_INFERENCE_ENGINE | DNN_BACKEND_HALIDE | * |------------------------|--------------------|------------------------------|--------------------| * | DNN_TARGET_CPU | + | + | + | * | DNN_TARGET_OPENCL | + | + | + | * | DNN_TARGET_OPENCL_FP16 | + | + | | * | DNN_TARGET_MYRIAD | | + | | */ CV_WRAP void setPreferableTarget(int targetId); //setInput在上篇部落格中已經介紹,在此不贅述 CV_WRAP void setInput(InputArray blob, const String& name = "", double scalefactor = 1.0, const Scalar& mean = Scalar()); //為layer設定新的引數 //layer的name //layer引數的索引(Layer::blobs array) //新的值 Layer::blobs //如果新blob的形狀與前一個形狀不同,則以下正向傳遞可能失敗 CV_WRAP void setParam(LayerId layer, int numParam, const Mat &blob); //返回指定層引數的blob //引數同setParam CV_WRAP Mat getParam(LayerId layer, int numParam = 0); //返回具有未連線輸出的層的索引 CV_WRAP std::vector<int> getUnconnectedOutLayers() const; //返回具有未連線輸出的層的名字 CV_WRAP std::vector<String> getUnconnectedOutLayersNames() const; //輸出網路中所有layer的input和output的shapes //netInputShapes 網路輸入層中所有輸入塊的形狀 // layersIds 返回層的ID //inLayersShapes 返回輸入層形狀 順序與layersIds的順序相同 //outLayersShapes 返回輸出層形狀 順序與layersIds的順序相同 CV_WRAP void getLayersShapes( const std::vector<MatShape>& netInputShapes, CV_OUT std::vector<int>& layersIds, CV_OUT std::vector<std::vector<MatShape> >& inLayersShapes, CV_OUT std::vector<std::vector<MatShape> >& outLayersShapes) const; /** @過載 */ CV_WRAP void getLayersShapes(const MatShape& netInputShape, CV_OUT std::vector<int>& layersIds, CV_OUT std::vector<std::vector<MatShape> >& inLayersShapes, CV_OUT std::vector<std::vector<MatShape> >& outLayersShapes) const; //輸出網路中指定layer的input和output的shapes //netInputShape 網路輸入的shapes //指定layer的ID //inLayerShapes返回指定層input的shapes //outLayerShapes返回指定層output的shapes void getLayerShapes(const MatShape& netInputShape, const int layerId, CV_OUT std::vector<MatShape>& inLayerShapes, CV_OUT std::vector<MatShape>& outLayerShapes) const; // FIXIT: CV_WRAP /** @過載 */ void getLayerShapes(const std::vector<MatShape>& netInputShapes, const int layerId, CV_OUT std::vector<MatShape>& inLayerShapes, CV_OUT std::vector<MatShape>& outLayerShapes) const; // FIXIT: CV_WRAP //計算指定input,執行整個網路的FLOPS //netInputShapes 所有輸入的shapes //返回值為FLOP CV_WRAP int64 getFLOPS(const std::vector<MatShape>& netInputShapes) const; /** 過載 */ CV_WRAP int64 getFLOPS(const MatShape& netInputShape) const; //計算指定layer的FLOPS CV_WRAP int64 getFLOPS(const int layerId, const std::vector<MatShape>& netInputShapes) const; /** 過載 */ CV_WRAP int64 getFLOPS(const int layerId, const MatShape& netInputShape) const; //獲取整個model中layer Type的列表 CV_WRAP void getLayerTypes(CV_OUT std::vector<String>& layersTypes) const; //返回網路中指定layer Type的數量 CV_WRAP int getLayersCount(const String& layerType) const; //計算儲存模型的權重和中間blob所需的位元組數 //netInputShapes 網路所有輸入的shapes //weights 輸出儲存模型中所有層的權重所佔用的位元組數 //執行模型,中間blob所需的位元組數 void getMemoryConsumption(const std::vector<MatShape>& netInputShapes, CV_OUT size_t& weights, CV_OUT size_t& blobs) const; // FIXIT: CV_WRAP /** 過載 */ CV_WRAP void getMemoryConsumption(const MatShape& netInputShape, CV_OUT size_t& weights, CV_OUT size_t& blobs) const; //獲取模型中指定layer儲存權重和中間blob所需的位元組數 CV_WRAP void getMemoryConsumption(const int layerId, const std::vector<MatShape>& netInputShapes, CV_OUT size_t& weights, CV_OUT size_t& blobs) const; /** 過載 */ CV_WRAP void getMemoryConsumption(const int layerId, const MatShape& netInputShape, CV_OUT size_t& weights, CV_OUT size_t& blobs) const; //計算模型中每一個layer,儲存權重和中間blob所需的位元組數 //netInputShapes 網路的所有input的shapes //layerIds 輸出網路中所有層的layer ID //weights 各個層儲存權重所需的位元組數,與layersIds對應 //blobs 各個層儲存中間blobs所需的位元組數,與layersIds對應 void getMemoryConsumption(const std::vector<MatShape>& netInputShapes, CV_OUT std::vector<int>& layerIds, CV_OUT std::vector<size_t>& weights, CV_OUT std::vector<size_t>& blobs) const; // FIXIT: CV_WRAP /** 過載 */ void getMemoryConsumption(const MatShape& netInputShape, CV_OUT std::vector<int>& layerIds, CV_OUT std::vector<size_t>& weights, CV_OUT std::vector<size_t>& blobs) const; // FIXIT: CV_WRAP //啟用或者禁用網路中的層融合 //啟用為true;禁用為false; //預設為啟用的 CV_WRAP void enableFusion(bool fusion); //返回推理的總時間和layers的時間(in ticks) //返回的向量中的索引對應layers ID,有些層可以與其它層融合,在這種情況下,跳過的層計時為0 //timings 各個層的時間 //整個model的推理時間 CV_WRAP int64 getPerfProfile(CV_OUT std::vector<double>& timings); private: struct Impl; Ptr<Impl> impl; }; }
以上是整個Net中定義的功能,程式中做了簡單的註釋,某些函式會很清晰,例如addLayer,但是有的函式可能看起來不知所云;沒有關係,在後續的文章中會逐步涉及到所有函式,結合函式的定義,會更加清晰。
從對Net的生命的分析,可以看出OpenCV為推理提供了強大的功能;除了對網路的操作(例如新增不同的layers)之外,同時提供了推理平臺選擇等函式,還提供了豐富的profiling功能,可以方便的分析記憶體和耗時。
OpenCV執行googleNet
下面給出一個demo,使用openCV完成googleNet的推理;
#include "opencv2/opencv.hpp" #include "opencv2/dnn.hpp" #include <iostream> #include <fstream> using namespace cv; using namespace cv::dnn; using namespace std; String modelTxt = "bvlc_googlenet.prototxt"; String modelBin = "bvlc_googlenet.caffemodel"; String labelFile = "synset_words.txt"; vector<String> readLabels(); int main(int argc, char** argv) { Mat testImage = imread("./space_shuttle.jpg"); if (testImage.empty()) { printf("could not load image...\n"); return -1; } //使用caffe model建立Net Net net = dnn::readNetFromCaffe(modelTxt, modelBin); if (net.empty()) { std::cerr << "Can't load network by using the following files: " << std::endl; std::cerr << "prototxt: " << modelTxt << std::endl; std::cerr << "caffemodel: " << modelBin << std::endl; return -1; } // 讀取分類資料 vector<String> labels = readLabels(); //GoogLeNet accepts only 224x224 RGB-images Mat inputBlob = blobFromImage(testImage, 1, Size(224, 224), Scalar(104, 117, 123), false, true); Mat prob; for (int i = 0; i < 10; i++) { // 輸入 net.setInput(inputBlob, "data"); // 分類預測 prob = net.forward("prob"); } //測試推理時間 int64 totalTime = Net.getPerfProfile(NULL); printf("total forward time is %d\n"); // 讀取分類索引,最大與最小值 Mat probMat = prob.reshape(1, 1); //reshape the blob to 1x1000 matrix // 1000個分類 Point classNumber; double classProb; minMaxLoc(probMat, NULL, &classProb, NULL, &classNumber); // 可能性最大的一個 int classIdx = classNumber.x; // 分類索引號 printf("\n current image classification : %s, possible : %.2f \n", labels.at(classIdx).c_str(), classProb); putText(testImage, labels.at(classIdx), Point(20, 20), FONT_HERSHEY_SIMPLEX, 0.75, Scalar(0, 0, 255), 2, 8); imshow("Image Category", testImage); waitKey(0); return 0; } /* 讀取影象的1000個分類標記文字資料 */ vector<String> readLabels() { std::vector<String> classNames; std::ifstream fp(labelFile); if (!fp.is_open()) { std::cerr << "File with classes labels not found: " << labelFile << std::endl; exit(-1); } std::string name; while (!fp.eof()) { std::getline(fp, name); if (name.length()) classNames.push_back(name.substr(name.find(' ') + 1)); } fp.close(); return classNames; }