詳解ROI Align的基本原理和實現細節

阿新 • • 發佈：2018-11-03

ROI Align是在Mask-RNN這篇論文裡提出的一種區域特徵聚集方式，很好地解決了ROI Pooling操作中兩次量化造成的區域不匹配（mis-alignment）的問題。實驗顯示，在檢測任務中將ROI Pooling替換為ROI Align可以提升檢測模型的準確性。

1、ROI Pooling 的侷限性分析

在常見的兩級檢測框架（比如Fast-RCNN, Faster-RCNN, RFCN）中， ROI Pooling的作用是根據預選框的位置座標在特徵圖中將相應區域池化為固定尺寸特徵圖，以便進行後續的分類和包圍框迴歸操作。由於預選框的位置通常是由模型迴歸得到的，一般來講是浮點型，而池化後的特徵圖要求尺寸固定。。故ROI Pooling這一操作存在兩次量化的過程。

將候選框邊界量化為整數點座標值。
將量化後的邊界區域平均分割成k x k個單元，對每一個單元的邊界進行量化。

事實上，經過上述兩次量化，此時的候選框已經和最開始迴歸出來的位置有一定的偏差，這個偏差會影響檢測或者分割的準確度。在論文裡，作者把它總結為“不匹配問題”（mis-alignment）。

下面我們用直觀的例子具體分析一下上述區域不匹配問題。如圖1 所示，這是一個Faster-RCNN檢測框架。輸入一張800*800的圖片，圖片上有一個665*665的包圍框(框著一隻狗)。圖片經過主幹網路提取特徵後，特徵圖縮放步長（stride）為32。因此，影象和包圍框的邊長都是輸入時的1/32。800正好可以被32整除變為25。但665除以32以後得到20.78，帶有小數，於是ROI Pooling 直接將它量化成20

。接下來需要把框內的特徵池化7*7的大小，因此將上述包圍框平均分割成7*7個矩形區域。顯然，每個矩形區域的邊長為2.86，又含有小數。於是ROI Pooling 再次把它量化到2。經過這兩次量化，候選區域已經出現了較明顯的偏差（如圖中綠色部分所示）。更重要的是，該層特徵圖上0.1個畫素的偏差，縮放到原圖就是3.2個畫素。那麼0.8的偏差，在原圖上就是接近30個畫素點的差別，這一差別不容小覷。

圖片標題

2、ROI Align的主要思想和具體方法

為了解決ROI Pooling 的上述缺點，作者提出了ROI Align這一改進的方法(如圖2)。ROI Align的思路很簡單：取消量化操作，使用雙線性內插的方法獲得座標為浮點數的畫素點上的影象數值，從而將整個特徵聚集過程轉化為一個連續的操作。值得注意的是，在具體的演算法操作上， ROI Align並不是簡單地補充出候選區域邊界上的座標點，然後將這些座標點進行池化，而是重新設計了一套比較優雅的流程，如圖3 所示：

遍歷每一個候選區域，保持浮點數邊界不做量化。
將候選區域分割成k x k個單元，每個單元的邊界不做量化。
在每個單元中計算固定四個座標位置，用雙線性內插的方法計算出這四個位置的值，然後進行最大池化操作。

這裡對上述步驟的第三點作一些說明：這個固定位置是指在每一個矩形單元（bin）中按照固定規則確定的位置。

比如，如果取樣點數是1，那麼就是這個單元的中心點。如果取樣點數是4，那麼就是把這個單元平均分割成4個小方塊以後他們分別的中心點。顯然這些取樣點的座標通常是浮點數，所以需要使用插值的方法得到它的畫素值。在相關實驗中，作者發現將取樣點設為4會獲得最佳效能，甚至直接設為1在效能上也相差無幾。事實上，ROI Align在遍歷取樣點的數量上沒有ROI Pooling那麼多，但卻可以獲得更好的效能，這主要歸功於解決了misalignment的問題。值得一提的是，我在實驗時發現，ROI Align在VOC2007資料集上的提升效果並不如在COCO上明顯。經過分析，造成這種區別的原因是COCO上小目標的數量更多，而小目標受misalignment問題的影響更大（比如，同樣是0.5個畫素點的偏差，對於較大的目標而言顯得微不足道，但是對於小目標，誤差的影響就要高很多）。

圖片標題
圖 3

3. ROI Align 的反向傳播

常規的ROI Pooling的反向傳播公式如下：

圖片標題

這裡，xi代表池化前特徵圖上的畫素點；yrj代表池化後的第r個候選區域的第j個點；i*(r,j)代表點yrj畫素值的來源（最大池化的時候選出的最大畫素值所在點的座標）。由上式可以看出，只有當池化後某一個點的畫素值在池化過程中採用了當前點Xi的畫素值（即滿足i=i*(r，j)），才在xi處回傳梯度。

類比於ROIPooling，ROIAlign的反向傳播需要作出稍許修改：首先，在ROIAlign中，xi*（r,j）是一個浮點數的座標位置(前向傳播時計算出來的取樣點)，在池化前的特徵圖中，每一個與 xi*(r,j) 橫縱座標均小於1的點都應該接受與此對應的點yrj回傳的梯度，故ROI Align 的反向傳播公式如下:
　　
圖片標題

上式中，d(.)表示兩點之間的距離，Δh和Δw表示 xi 與 xi*(r,j) 橫縱

詳解ROI Align的基本原理和實現細節

3. ROI Align 的反向傳播

詳解ROI Align的基本原理和實現細節

詳解 ROI Align 的基本原理和實現細節

API Hook基本原理和實現

【圖文詳解】HDFS基本原理

詳解CART樹剪枝原理和過程 --- 機器學習

懶載入和預載入的基本原理和實現方法

分散式鎖的基本原理和實現

詳解CART樹剪枝原理和過程 --- 機器學習

Android中圖案解鎖的設計原理和實現過程

詳解 Redis 記憶體管理機制和實現

詳解PHP文件下載的原理和實現

ios中建立可以拖動的view原理和實現詳解(含程式碼)

Android ContentProvider 基本原理和使用詳解

貝葉斯算法的基本原理和算法實現

C語言itoa()函數和atoi()函數詳解(整數轉字符C實現)

淺談BloomFilter【上】基本概念和實現原理

線性迴歸原理和實現基本認識

java動態代理詳解，並用動態代理和註解實現日誌記錄功能

注意力機制的基本思想和實現原理（很詳細）(第二篇)

伺服器負載均衡的基本功能和實現原理

詳解ROI Align的基本原理和實現細節

3. ROI Align 的反向傳播

相關推薦