IoU-Net論文筆記

阿新 • • 發佈：2018-12-08

論文背景及大致思路
a. 清北，Face++，頭條四家聯合出品，一看就是有點厲害的文章。發表於ECCV2018.
b. 文章從我們常常忽略的定位的準確率出發，提出了利用預測IoU來輔助檢測的IoU Net。在多個數據集上得到了當前的最佳效果。
發現的問題和主要工作
a. 首先大概的講一下傳統的NMS。首先拿出分類置信度最高的預測框，然後將同一類別的框都拿出來和他算一算IoU，如果大於了一個閾值，那就把後面的這個框刪了。這裡就出現了一個問題，為什麼分類置信度高就代表著檢測的效果好呢，作者對這個問題得到了如下的兩張表：

也就是說IoU其實和分類的置信度並不是正相關的，那麼傳統的NMS就可能會導致一些原本IoU很高，但是預測分不高的框被扔掉了，反而留下了一些不是那麼重合的框。於是，作者提出了一個改了排序依據的IoU-guided NMS。作者將不同演算法得到的迴歸框結果進行了統計，可以看到，在較高精度的部分，NMS抑制了更多的框，而在較低的定位準確度時，反而留下了較多的框。但這部分有個地方我不是很理解，就是為什麼會比No-NMS還要多。

b. 很多情況下，邊框迴歸的時候並不是單調的，所以在迭代中，迴歸的結果可能反而退化了。於是提出了基於優化的邊框修正方法，結合新的PrRoI Pooling，使得整個過程可以使用梯度下降優化。
IoU-Net
a. 結構如圖所示，主幹網路為FPN，通過RPN後利用PrRoI-Pooling提取RoI，然後一路預測IoU，這一路還有一個Jittered RoI，功能就和字面一樣，我們並不是直接把GT全部用於預測IoU的，而是將所有的GT人為的進行一些變化，然後將變化後的GT和真實值進行計算，去除IoU小於0.5的，得到最終的訓練資料，作者發現這樣的方法可以提高網路的魯棒性和最後的效果。另一路做具體分類和邊框修正：

b. IoU-guided NMS：和傳統的NMS，主要就是將排序的key換為了定位的置信度也就是IoU。並且會將抑制了其他框的結果框的分類置信度也置為最高值。也就是對於某個GT對應所有box，選出置信度都是最高的進行代表。虛擬碼如下：

c. Bounding box refinement as an optimization procedure ：基於迴歸的方法，直接預測調整框的引數c，但是在迭代時，對於框的迴歸操作會影響資料的分佈，導致定位的準確度非線性的增長。本文的方法利用了預測的IoU，控制迭代的次數，也就是early-stop操作。同時，演算法中會根據bj的尺度調整更新的步長。在虛擬碼的第六行有所體現：

d. Precise RoI Pooling：也是一個為了避免整數化座標的Pooling方法，但是比RoI Align更進一步，那就是直接在對應區域算積分。這就避免了RoI Align中的N的選擇（就是在多少塊上進行插值）。整個結果連續可微，所以結果更精確。
PS
a. 這篇內容也比較多，還需要重複的閱讀。

IoU-Net論文筆記

論文背景及大致思路 a. 清北，Face++，頭條四家聯合出品，一看就是有點厲害的文章。發表於ECCV2018. b. 文章從我們常常忽略的定位的準確率出發，提出了利用預測IoU來輔助檢測的IoU Net。在多個數據集上得到了當前的最佳效果。發現的問題和主要工作 a

Deformable Convolution Net論文筆記

論文大致背景及思路 a. MSRA在2017年的作品，最近出了V2版本。 b. 提出了兩個模組用於加強CNN對變形的適應能力。 c. 對於幾何變化，目前有兩種方法： i. 構造一個足夠強的資料集 ii. 使用一些具有旋轉變形不變性的特徵演算法，比如SIFT d. 上述方法有兩個

SPP-Net（Spatial Pyramid Pooling Network）論文筆記

1. 論文思想 SPP-Net的提出首先是為了解決傳統CNN網路對於輸入影象尺寸具有嚴格的大小限制，其原因也就是最後的全連線層需要的輸入尺寸是固定的。那麼對於一副比較大的影象就需要進行剪裁了，如下圖所示：但是這樣會造成資料失真以及資料的不完整。那麼，要使CNN網路可以接受任意影象

《B/S模式下ADO.NET資料庫訪問技術的設計及應用》論文筆記（十七）

一、基本資訊標題：B/S模式下ADO.NET資料庫訪問技術的設計及應用時間：2014 來源：電子測試關鍵詞：B/S模式; ADO.NET資料庫訪問技術; 設計; 應用; 二、研究內容 1.ADO.NET資料庫訪問技術的兩種模式：連線模式下的資料庫訪問技術：

.NET學習筆記之ADO.NET

技術分享 reader sql語句 bsp 技術 area ada 執行sql 學習據提供程序： Connection，用來連接數據庫 Command，用來執行SQL語句 DataReader只讀，只進的結果集，一條一條讀取數據 DataAdapter，一個封裝了上面3個

,NET學習筆記之ADO.NET

nbsp png alt 學習 log logs ima http blog ,NET學習筆記之ADO.NET

論文筆記：目標追蹤-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking

exploit orm dom ons tail red 最好早期形式化基於自適應顏色屬性的目標追蹤 Adaptive Color Attributes for Real-Time Visual Tracking 基於自適應顏色屬性的實時視覺追蹤 3月講的第一

論文筆記之 SST: Single-Stream Temporal Action Proposals

ron 我們裁剪只需要 lock proposal 數據 function 性能 SST: Single-Stream Temporal Action Proposals 2017-06-11 14:28:00 　　本文提出一種時間維度上的 proposal

Selective Search for Object Recognition 論文筆記【圖片目標分割】

line 單個介紹 images 分層什麽但是如果抽樣這篇筆記，僅僅是對選擇性算法介紹一下原理性知識，不對公式進行推倒. 前言：這篇論文介紹的是，如果快速的找到的可能是物體目標的區域，不像使用傳統的滑動窗口來暴力進行區域識別.這裏是使用算法從多個維度對找

QuartZ .Net 學習筆記一: 源碼下載與查看

net href cnblogs 方法 category solution ges 博客存在最近因為工作需要研究一下QuartZ .net , 之前也用過不過但沒有深入了解, 現想深入研究一下網上相關QuartZ .net 的文章不少, 但大部分都是源於張善友的博

Deep Learning論文筆記之（二）Sparse Filtering稀疏濾波

structure 分布的確 tlab bolt 期望有一個尋找 mean Deep Learning論文筆記之（二）Sparse Filtering稀疏濾波自己平時看了一些論文，但老感覺看完過後就會慢慢的淡忘，某一天重新拾起來的時候又好像沒有

Semi-supervised Segmentation of Optic Cup in Retinal Fundus Images Using Variational Autoencoder 論文筆記

str 很好流程 Coding 測試 eat www tin nal MICCAI 2017年論文 Overview：視杯視盤精確分割後，就可以計算杯盤比了，杯盤比是青光眼疾病的主要manifestation。以往的方法往往采用監督學習的方法，這樣需要大量的精確像素

ASP.NET學習筆記（4）——上傳圖片

bmi guid ted 介紹 dir filename content put ima 說明（2017-10-8 23:03:43）： 1. 後面的內容都是一些雜七雜八的，零零碎碎的，之前都直接略過了，不過其實還是挺重要的，這次重新學習要認認真真敲一遍。 2. 明天中午9

ASP.NET學習筆記（6）——jQuery的Ajax基本操作

stat password ash page serve () c# content scrip 說明（2017-11-5 15:49:29）： 1. jQuery裏封裝了三個方法，$.get,$.post和$.ajax,其中$.ajax是返回原生的XMLHttpReque

論文筆記之：Collaborative Deep Reinforcement Learning for Joint Object Search

region format es2017 join sid col str bottom respond Collaborative Deep Reinforcement Learning for Joint Object Search CVPR 2017 Motiva

論文筆記-Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

mach default rap lin -s rnn alias for wrap 針對機器翻譯，提出 RNN encoder-decoder. encoder與decoder是兩個RNN，它們放在一起進行參數學習，最大化條件似然函數。網絡結構：註意輸入語句與

論文筆記-Sequence to Sequence Learning with Neural Networks

map tran between work down all 9.png ever onf 大體思想和RNN encoder-decoder是一樣的，只是用來LSTM來實現。 paper提到三個important point： 1）encoder和decoder的LSTM

論文筆記-Deep Interest Network for Click-Through Rate Prediction

圖片 res 興趣 log through deep pre 出發 amp 重點：認為不同的廣告會觸發用戶的興趣點不同導致user embedding隨之改變。 DIN網絡結構如下圖右邊 DIN的出發點：認為不同的廣告會觸發用戶的興趣點不同導致user embedd

論文筆記-DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

contain feature 比較 san date res 離散 edi post 針對交叉（高階）特征學習提出的DeepFM是一個end-to-end模型，不需要像wide&deep那樣在wide端人工構造特征。網絡結構： sparse feature

論文筆記-Item2Vec- Neural Item Embedding for Collaborative Filtering

href resource 數據 per con doc 訂單優化 div 將word2vec思想拓展到序列item的2vec方法並運用到推薦系統中，實質上可以認為是一種cf 在word2vec中，doc中的word是具有序列關系的，優化目標類似在max對數似然函數

IoU-Net論文筆記

相關推薦