對目標檢測方法yolo的理解（二）

阿新 • • 發佈：2019-01-01

本文轉載自：

http://blog.csdn.net/u011534057/article/details/51244354

Reference link:
http://blog.csdn.NET/tangwei2014

這是繼RCNN，fast-RCNN 和 faster-RCNN之後，rbg（Ross Girshick）大神掛名的又一大作，起了一個很娛樂化的名字：YOLO。
雖然目前版本還有一些硬傷，但是解決了目前基於DL檢測中一個大痛點，就是速度問題。
其增強版本GPU中能跑45fps，簡化版本155fps。

本篇博文focus到方法上。實驗結果等整理全了再奉上。
1. YOLO的核心思想

YOLO的核心思想就是利用整張圖作為網路的輸入，直接在輸出層迴歸bounding box的位置和bounding box所屬的類別。
沒記錯的話faster RCNN中也直接用整張圖作為輸入，但是faster-RCNN整體還是採用了RCNN那種 proposal+classifier的思想，只不過是將提取proposal的步驟放在CNN中實現了。

2.YOLO的實現方法

將一幅影象分成SxS個網格(grid cell)，如果某個object的中心落在這個網格中，則這個網格就負責預測這個object。
每個網格要預測B個bounding box，每個bounding box除了要回歸自身的位置之外

，還要附帶預測一個confidence值。
這個confidence代表了所預測的box中含有object的置信度和這個box預測的有多準兩重資訊，其值是這樣計算的：

其中如果有object落在一個grid cell裡，第一項取1，否則取0。第二項是預測的bounding box和實際的groundtruth之間的IoU值。
每個bounding box要預測(x, y, w, h)和confidence共5個值，每個網格還要預測一個類別資訊，記為C類。則SxS個網格，每個網格要預測B個bounding box還要預測C個categories。輸出就是S x S x (5*B+C)的一個tensor。
注意：class資訊是針對每個網格的，confidence資訊是針對每個bounding box的。
舉例說明: 在PASCAL VOC中，影象輸入為448x448，取S=7，B=2，一共有20個類別(C=20)。則輸出就是7x7x30的一個tensor。
整個網路結構如下圖所示：
在test的時候，每個網格預測的class資訊和bounding box預測的confidence資訊相乘，就得到每個bounding box的class-specific confidence score:

等式左邊第一項就是每個網格預測的類別資訊，第二三項就是每個bounding box預測的confidence。這個乘積即encode了預測的box屬於某一類的概率，也有該box準確度的資訊。
得到每個box的class-specific confidence score以後，設定閾值，濾掉得分低的boxes，對保留的boxes進行NMS處理，就得到最終的檢測結果。

3.YOLO的實現細節

每個grid有30維，這30維中，8維是迴歸box的座標，2維是box的confidence，還有20維是類別。
其中座標的x,y用對應網格的offset歸一化到0-1之間，w,h用影象的width和height歸一化到0-1之間。
在實現中，最主要的就是怎麼設計損失函式，讓這個三個方面得到很好的平衡。作者簡單粗暴的全部採用了sum-squared error loss來做這件事。
這種做法存在以下幾個問題：
第一，8維的localization error和20維的classification error同等重要顯然是不合理的；
第二，如果一個網格中沒有object（一幅圖中這種網格很多），那麼就會將這些網格中的box的confidence push到0，相比於較少的有object的網格，這種做法是overpowering的，這會導致網路不穩定甚至發散。
解決辦法：
- 更重視8維的座標預測，給這些損失前面賦予更大的loss weight, 記為在pascal VOC訓練中取5。
- 對沒有object的box的confidence loss，賦予小的loss weight，記為在pascal VOC訓練中取0.5。
- 有object的box的confidence loss和類別的loss的loss weight正常取1。
對不同大小的box預測中，相比於大box預測偏一點，小box預測偏一點肯定更不能被忍受的。而sum-square error loss中對同樣的偏移loss是一樣。
為了緩和這個問題，作者用了一個比較取巧的辦法，就是將box的width和height取平方根代替原本的height和width。這個參考下面的圖很容易理解，小box的橫軸值較小，發生偏移時，反應到y軸上相比大box要大。
一個網格預測多個box，希望的是每個box predictor專門負責預測某個object。具體做法就是看當前預測的box與ground truth box中哪個IoU大，就負責哪個。這種做法稱作box predictor的specialization。
最後整個的損失函式如下所示：

這個損失函式中：
- 只有當某個網格中有object的時候才對classification error進行懲罰。
- 只有當某個box predictor對某個ground truth box負責的時候，才會對box的coordinate error進行懲罰，而對哪個ground truth box負責就看其預測值和ground truth box的IoU是不是在那個cell的所有box中最大。
其他細節，例如使用啟用函式使用leak RELU，模型用ImageNet預訓練等等，在這裡就不一一贅述了。

4.YOLO的缺點

YOLO對相互靠的很近的物體，還有很小的群體檢測效果不好，這是因為一個網格中只預測了兩個框，並且只屬於一類。
對測試影象中，同一類物體出現的新的不常見的長寬比和其他情況是。泛化能力偏弱。
由於損失函式的問題，定位誤差是影響檢測效果的主要原因。尤其是大小物體的處理上，還有待加強。

對目標檢測方法yolo的理解（二）

本文轉載自： http://blog.csdn.net/u011534057/article/details/51244354 Reference link: http://blog.csdn.NET/tangwei2014 這是繼RCNN，fast-RCNN 和

目標檢測光流法（二）：opencv下的光流L-K演算法

後續將簡單介紹光流法的一些簡單實現包，包括opencv下的光流演算法與matlab下的光流演算法。該節主要介紹opencv下的光流實現。 Opencv的光流實現由好幾個方法可以（也就是說有好幾個函式可以用），每個函式當然也對應著不同的原理，那麼它的效果以及演算

顯著性目標檢測模型評價指標（二）——PR曲線

顯著性目標檢測模型評價指標之 PR曲線原理與實現程式碼目錄一、PR曲線原理在顯著目標提取中（關於視覺顯著性的簡要介紹點此處連結），PR曲線是用來評估模型效能的重要指標之一，PR曲線中的P(Precision)和R(Recall)分

caffe目標檢測模型訓練全過程（二）python載入caffemodel分類

繼上篇 caffe目標檢測模型訓練全過程（一）指令碼、資料準備與製作之後，我們訓練出來了其模型，如圖所示： models2_iter_70000.caffemodel 就是需要呼叫的模型，70

對【對稱加密和非對稱加密以及CA】的理解（二）

非對稱加密更加安全但是費時費力，對稱加密雖然省時，快速但是不安全，於是就可以將它倆結合起來使用。結合思路是這樣的：檔案傳輸用對稱加密，對稱加密的加密和解密用的都是同一個金鑰，用非對稱加密的公鑰對此對稱加密的金鑰進行加密，然後傳送出去，接收方用非對稱加密的私鑰對剛才用公鑰加密過的對稱加密的金鑰進

對框架的理解（二）

前陣子看了一遍mybatis,幾天沒用又生疏了，今天提到mybatis的輸入對映的型別，一時語塞了。原來是3種，基本資料型別和String, map, pojo類。問題來了，如果傳入的是list呢？惡補知識點：java有八大基本資料型別和引用資料型別，引用資料型別包括類、介面和陣列

yolo 目標檢測演算法個人總結（yolov1）

yolo 目標檢測演算法個人總結目前yolo目標檢測有兩個版本，分別為v1和v2。因工作需要用yolo演算法檢測人物，所以這段時間重點看了這兩篇論文，並實現了對應的tensorflow程式碼。這裡記錄下在論文閱讀過程中的一些細節資訊，留給自己，同時也希望各位能指出本人

用javascript 面向對象制作坦克大戰（二）

初始化 common data- 插入 div 理解 span 們的 ava 2. 完善地圖我們的地圖中有空地，墻，鋼，草叢，水，總部等障礙物。我們可以把這些全部設計為對象。 2.1 創建障礙物對象群對象群保存各種地圖上的對象，我們通過對象的屬

Java面向對象編程之繼承（二）

抽象方法 oid 修飾屬於 ... 方法的參數要求 ring 覆蓋在上一篇博客中，我們已經了解繼承的基本概念和語法，那麽今天我們就來聊一聊有關於繼承的其他東西。讓我們來了解一下什麽是方法重載（overload）和方法覆蓋（override）方法重載（overloa

HTTP模塊理解（二）

在服務器服務客戶端問題抽象 mar 應用 pre node.js 這是我在寫，用express+ajax+swig來做一個簡單的應用的時候，遇到的問題。還是不太理解http模塊。後來在網上看到雲棲社區的一篇《Node.js之HTTP請求與響應》，這裏做簡單的總結。

關於JS中變量提升的規則和原理的一點理解（二）

cnblogs 打印 blog javascrip 誤區 down mark fun ont 上篇文章中講到變量提升和函數提升的先後順序時蒙了，後來去查了一下資料，特別整理一下。在《你不知道的JavaScript（上卷）》一書的第40頁中寫到：函數會首先被提升，然後才是變

[java源碼解析]對HashMap源碼的分析（二）

具體實現修改 ring 數組大小 inflate 大小 transient misc ear 上文我們講了HashMap那騷騷的邏輯結構，這一篇我們來吹吹它的實現思想，也就是算法層面。有興趣看下或者回顧上一篇HashMap邏輯層面的，可以看下HashMap源碼解析（一）。

Mybatis的SqlSession理解（二）

.com lar aps elements ive name simple bin ret Mybaits加載執行該xml配置 class SqlSessionFactoryBean implements FactoryBean<SqlSessionFactory&

目標檢測之模型篇（4）【EAST】

文章目錄 1. 前言 2. 實現 2.1 Pipeline 2.2 網路設計 2.3 標籤生成 2.4 損失函式 2.5 訓練 2.6 位置感知的NMS 3. 結果 4. 總結 5.

目標檢測之模型篇（3）【DMPNet】

文章目錄 1. 前言 2. 實現 2.1 Roughly recall text with quadrilateral sliding window 2.2 Finely localize text with quadrangle

目標檢測之模型篇（2）【RRPN】

文章目錄 1. 前言 2. 實現 2.1 關鍵idea 2.2 模型結構 2.3 具體細節 1.Rotated Bounding Box Representation-旋轉矩形框的表示 2.Rotati

7 Serial Configuration 理解（二）

*Serial Configuration Mode 　　序列配置模式分為：Master Serial 和 Slave Serial （如下圖）兩類；兩者的區別在與CCLK的輸入輸出方向；主動模式下為輸出方向，從模式下為輸入方向； Slave Serial模式最典型應用於序列菊花

淺談對Js面向物件的理解（1）

面向物件的語言有一個標誌，那就是它們都有類的概念，通過類來建立任意多個具有相同屬性和方法的物件。它是一種程式開發的方法，它將物件作為程式的基本單元，將邏輯和資料封裝其中，以提高程式碼的靈活性、重用性和擴充套件性。物件是把資料及對資料的操作方法放在一起，作為一個相互依存的整體。簡單的

ppp 完全理解（二）【轉】

轉自：https://blog.csdn.net/tianruxishui/article/details/44057717 ppp 完全理解（二） pppd 協議及程式碼分析作者：李圳均日期：2013/11/27

GCD 深入理解（二）

GCD 深入理解（二）本文是基於上一篇文章： GCD 深入理解（一）的後續如果你還沒看過上一篇，那趕緊去看看吧。本文講解了GCD的幾個更優秀的功能，快來看看吧。原文地址：GCD 深入理解（二） ______

對目標檢測方法yolo的理解 （二）

相關推薦

對目標檢測方法yolo的理解（二）