1. 程式人生 > >深度學習當中目標檢測的各種名詞解釋

深度學習當中目標檢測的各種名詞解釋

參考連結:

1)https://www.zhihu.com/question/265345106/answer/294410307

2)

http://nooverfit.com/wp/%E5%81%9A%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%EF%BC%8C%E5%86%8D%E5%88%AB%E6%8A%8Aiou%EF%BC%8Croi-%E5%92%8C-roc%EF%BC%8Cauc-%E6%90%9E%E6%B7%B7%E4%BA%86-%EF%BC%81%E8%81%8A%E8%81%8A%E7%9B%AE%E6%A0%87/

3)http://blog.csdn.net/myarrow/article/details/51878004

一.faster-rcnn當中的rpn的理解

該作者以faster-rcnn為例子,說明了,現在主流的目標檢測(object Dection)分為兩個步驟,第二個步驟就是Regional Proposal過程(Regional Proposal:生成候選區域,產生預測值


可以看到,圖中有兩個Classification loss和兩個Bounding-box regression loss,有什麼區別呢?

step1、

Input Image經過CNN特徵提取,首先來到Region Proposal網路。由Regio Proposal Network輸出的Classification,這並不是判定物體在COCO資料集上對應的80類中哪一類,而是輸出一個Binary的值p,可以理解為 p\in[0,1]

,人工設定一個threshold=0.5。(在這裡進行一下解釋:一共有80個分類,在80分類以外還有很多其他的物體不需要進行分類,因此通過Regio Proposal Network該層僅僅是判斷是否進行下一步操作,是一個二分類,而非80分類

RPN網路做的事情就是,如果一個Region的 p\geq0.5 ,則認為這個Region中可能是80個類別中的某一類,具體是哪一類現在還不清楚。到此為止,Network只需要把這些可能含有物體的區域選取出來就可以了,這些被選取出來的Region又叫做ROI (Region of Interests),即感興趣的區域。當然了,RPN同時也會在feature map上框定這些ROI感興趣區域的大致位置,即輸出Bounding-box

So, RPN網路做的事情就是,把一張圖片中,我不感興趣的區域——花花草草、大馬路、天空之類的區域忽視掉,只留下一些我可能感興趣的區域——車輛、行人、水杯、鬧鐘等等,然後我之後只需要關注這些感興趣的區域,進一步確定它到底是車輛、還是行人、還是水杯(分類問題)。。。。

step2.

接下來的工作就很簡單了,假設輸入RPN網路的feature map大小為 64\times64 ,那麼我們提取的ROI的尺寸一定小於 64\times64,因為原始影象某一塊的物體在feature map上也以同樣的比例存在。我們只需要把這些Region從feature map上摳出來,由於每個Region的尺寸可能不一樣,因為原始影象上物體大小不一樣,所以我們需要將這些摳出來的Region想辦法resize到相同的尺寸,這一步方法很多(Pooling或者Interpolation,一般採用Pooling,因為反向傳播時求導方便)。

假設這些摳出來的ROI Region被我們resize到了 14\times14 或者 7\times7 ,那我們接下來將這些Region輸入普通的分類網路,即第一張Faster R-CNN的結構圖中最上面的部分,即可得到整個網路最終的輸出classification,這裡的class(車、人、狗。。)才真正對應了COCO資料集80類中的具體類別。

同時,由於我們之前RPN確定的box\region座標比較粗略,即大概框出了感興趣的區域,所以這裡我們再來一次精確的微調,根據每個box中的具體內容微微調整一下這個box的座標,即輸出第一張圖中右上方的Bounding-box regression。


二.對於Anchor(錨點)的理解

個人理解是:找出Regional Proposal的對稱中心點,然後接著對於該點進行修正

三。ROI (region of interest) , 感興趣區域

我們做任何目標檢測在準備資料集時都要選擇感興趣區域

四。ROC曲線和AUC區域

首先ROC受試者工作特徵曲線,聽名字就是從醫療領域引入的。理解之前我們先要回顧一下真陽率(TP),假陽率(FP),假陰率(FN),真陰率(TN)的概念:

來自:https://stats.stackexchange.com/questions/132777/what-does-auc-stand-for-and-what-is-it

很熟悉吧?真陽率(TP)就是預測類別1而事實上是類別1, 假陽率(FP)就是預測類別1但是事實上不是類別1.

TP作為縱座標,FP作為橫座標,就是一個類別的ROC曲線 :

來自; https://stats.stackexchange.com/questions/132777/what-does-auc-stand-for-and-what-is-it

曲線下的藍色區域就是曲線下區域AUC (Area Under the Curve)了 如果AUC的面積為1,恭喜你,在這個類別上你的準確率是最高的。AUC一般越大越好,說明某個類別的分類準確度越高

附上roc和auc的理解與使用連結:http://blog.csdn.net/shenxiaoming77/article/details/72627882