1. 程式人生 > >騰訊推出超強少樣本目標檢測演算法,公開千類少樣本檢測訓練集FSOD | CVPR 2020

騰訊推出超強少樣本目標檢測演算法,公開千類少樣本檢測訓練集FSOD | CVPR 2020

論文提出了新的少樣本目標檢測演算法,創新點包括Attention-RPN、多關係檢測器以及對比訓練策略,另外還構建了包含1000類的少樣本檢測資料集FSOD,在FSOD上訓練得到的論文模型能夠直接遷移到新類別的檢測中,不需要fine-tune

來源:曉飛的演算法工程筆記 公眾號

論文: Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

  • 論文地址:https://arxiv.org/abs/1908.01998

Introduction


  不同於正常的目標檢測任務,few-show目標檢測任務需要通過幾張新目標類別的圖片在測試集中找出所有對應的前景。為了處理好這個任務,論文主要有兩個貢獻:

  • 提出一個通用的few-show目標檢測演算法,通過精心設計的對比訓練策略以及RPN和檢測器中加入的attention模組,該網路能夠榨乾目標間的匹配關係,不需要fine-tune就可以進行靠譜的新目標檢測。實驗表明,early stage的attention模組能夠顯著提升proposal的質量,而後面的多關係檢測(multi-relation detector)模組則能有效抑制和過濾錯誤的背景
  • 提供了一個1000類的少樣本訓練集FSOD,論文提出的模型的效能提升有一定程度得益於此訓練集,是一個前所未有的訓練集

FSOD: A Highly-Diverse Few-Shot Object Detection Dataset


  儘管目前目標檢測的訓練集已經非常龐大,但是對於少樣本目標檢測演算法的使用而言,這些訓練集的類別都太少了。因此,論文構造了一個少樣本目標檢測專用的訓練集

Dataset Construction

  新訓練集基於ImageNet(選了531類)和Open Images dataset V4(選了469類),但訓練集間的類別不同,為了防止合併後存在漏標的情況,先對label進行分析和合併成樹狀結構,補充標註,然後去掉標註質量差的圖片,包括包含目標太小($\le 0.05%$)的圖片。將類別分為訓練集和測試集,先用COCO的類別作為基礎訓練集,防止pretrain的影響,然後儘量選擇與當前訓練集差距較大的類別作為測試集,共包含200類,再選擇另外800類作為訓練集

Dataset Analysis

  新訓練集的資料情況如圖3和表1,主要有兩個特性:

  • High diversity in categories,類別覆蓋的領域很多,包括動物、衣服、武器等,且訓練集和測試集的類別來自不同的領域
  • Challenging setting,資料集在box大小和寬高比上有很多種,26.5%的圖片包含至少3個目標,且有大量非目標類別的物體,干擾性很大

Our Methodology


Problem Definition

  給予包含目標特寫的輔助圖片(support image)$s_c$以及可能包含$c$類目標的查詢圖片$q_c$,任務是找出查詢圖片中所有輔助圖片對應的類別目標,並且標記其準確的位置。如果輔助集包含$K$個類別,每個類提供$N$張圖片,則稱為K-way N-shot檢測

Deep Attentioned Few-Shot Detection

  論文提出新attention網路,該網路能夠在RPN模組和多關係檢測模組中學習輔助集與查詢集間的通用的匹配關係。網路為包含多分支的權重共享框架,一個分支用於查詢集,其它則用於輔助集(為了方便,圖4只畫了一個分支),對於同類別的輔助分支,使用平均特徵圖作為輔助特徵圖。查詢分支的權重共享主幹為Faster R-CNN(包括RPN),使用這個分支來訓練輔助集和查詢集的匹配關係,能夠學習到同類別的通用知識

  • Attention-Based Region Proposal Network

  在少樣本目標檢測中,RPN能夠產生潛在的相關box用於接下來的檢測任務,不僅要分辨前景和背景,還要過濾不屬於輔助集的前景。如果沒有足夠的輔助集資訊,RPN將會產生大量不相關的proposal。為了解決這個問題,提出了attention RPN,能夠使用輔助圖片的資訊來過濾背景以及不相關的前景,產生更少但更準的候選目標

  Attention RPN的核心是計算相似度特徵圖,對於輔助特徵圖$X\in t^{S\times S\times C}$以及查詢特徵圖$Y\in t^{H\times W\times C}$,相似度特徵圖$G$計算如上。輔助特徵$X$用來作為核在查詢特徵圖上進行類似depth-wise卷積的滑動。在實際中,查詢特徵採用RPN的輸入特徵,用於卷積的輔助特徵大小為$1\times 1$,由global average產生,在獲得attention特徵後,使用$3\times 3$卷積進一步提取特徵,然後接objectness分類和box預測,attention RPN的loss $L_{rpn}$會跟Faster R-CNN一樣加入到模型的訓練中

  • Multi-Relation Detector

  RPN後面一般會接一個檢測器用於對proposal進行重新評估和調整,而論文則希望檢測器能夠有強大的類別區分能力,提出了多關係檢測器(multi-relation detector)來度量相似性.該檢測器包含3個attention相似性模組,將3個模組的分數求和作為最終的匹配分數。對於大小均為$7\times 7\times C$的輔助特徵$f_s$和查詢特徵$f_q$:

  • global-relation head,用於學習全域性匹配的深層embedding。將$f_s$和$f_q$concatenate成特徵$f_c$,然後平均池化成$1\times 1\times 2C$,最後用加ReLU的兩層全連線層輸出最後的分數
  • local-correlation head,學習pixel-wise和depth-wise的關係,即對應位置的關係。首先使用$1\times 1\times C$卷積分別操作$f_s$和$f_q$,使用前面的Attention RPN的相似性計算$G_{h,w,c}$進行depth-wise的相似性計算獲得相似性特徵圖,$S=H=W=7$,最後用單層全連線層獲得分數

  • patch-relation head,用於學習非線性的塊匹配,即一對多的關係。將$f_s$和$f_q$concatenate成特徵$f_c$,然後輸出到表8的塊關係模組中,表8的卷積層後面都接ReLU,所有卷積層和池化層都進行0填充,模組將特徵圖從$7\times 7$下采樣為$1\times 1$(這裡池化層的s1/p0感覺描述不清楚,等原始碼放出來再看看),最後同時接兩個全連線層,一個全連線產生匹配分數,另外一個產生bbox的預測

  論文對3種head的重要性進行了實驗,可以看到這3種head能很好地互補,結合起來能夠完整地表達目標間的關係

Two-way Contrastive Training Strategy

  通常少樣本訓練策略為每次輸入為$(q_c,s_c)$,論文認為模型應該同時學習識別同類別和區分不同類別,提出2-way對比訓練策略

  如圖7,該策略每輪隨機選擇一張查詢圖片$q_c$、一張輔助圖片$s_c$以及一張別的類別的輔助圖片$s_n$組成三元組$(q_c, s_c, s_n),c\ne n$,查詢圖片中只有$c$類目標標記為前景。在訓練時,不僅學習$(q_c,s_c)$間的相似性,也學習$(q_c,s_n)$間的差異性。由於背景proposal的數量比較大,佔據著訓練過程,所以$(p_f,s_p)$、$(p_b,s_p)$和$(p_b,s_n)$控制為1:2:1比例,根據匹配分數從高到低選擇。每個proposal的損失為$L=L_{matching}+L_{box}$,匹配損失使用二值交叉熵

  論文對不同的訓練策略進行了對比,2-way 5-shot對比訓練策略效果最優,並且可以看到attention RPN也是有效的,$AP_{50}$提升了1.9

Experiments


Training Details

  查詢圖片短邊為600畫素,長邊上限1000畫素,輔助圖片裁剪目標區域加16畫素的位置,resize然後0填充至$320\times 320$,在推理時,相同類別的輔助集使用平均特徵集

Comparison with State-of-the-Art Methods

  這裡表格的finetune是指直接在測試集上進行finetune

Realistic Applications

More Categories vs More Samples?

CONCLUSION


  論文提出了新的少樣本目標檢測演算法,創新點包括Attention-RPN、多關係檢測器以及對比訓練策略,另外還構建了包含1000類的少樣本檢測資料集FSOD,在FSOD上訓練得到的論文模型能夠直接遷移到新類別的檢測中,不需要fine-tune



如果本文對你有幫助,麻煩點個贊或在看唄~
更多內容請關注 微信公眾號【曉飛的演算法工程筆記】

相關推薦

推出超強樣本目標檢測演算法公開樣本檢測訓練FSOD | CVPR 2020

論文提出了新的少樣本目標檢測演算法,創新點包括Attention-RPN、多關係檢測器以及對比訓練策略,另外還構建了包含1000類的少樣本檢測資料集FSOD,在FSOD上訓練得到的論文模型能夠直接遷移到新類別的檢測中,不需要fine-tune   來源:曉飛的演算法工程筆記 公眾號 論文: Few-Sho

:人力資源要的是服務而不是管理

馬化騰 薪酬 會有 對數 關註 每一個 早期 .... 調研 2016年全年,騰訊總收入為人民幣1519.38億元。現在這只企鵝到底已經龐大到怎樣的程度呢? 被譽為“互聯網女王”的瑪麗·米克(Mary Meeker)發布了“2016互聯網女皇報告”,盤點了過去一年全世界互聯

華為用戶隱私互懟的背後AI才是重點!

騰訊華為數據日前,中國硬件巨頭華為,軟件巨頭騰訊,因《華爾街日報》一篇名為《華為和騰訊陷入用戶數據之爭 後者要求政府介入》的報道而成為了媒體關註的焦點。華為手機曾在此前推出一款榮耀Magic手機,它也被稱為華為第一款人工智能手機,它可以通過收集數據從而達到智能推薦等功能,而這些數據裏面就包括了微信聊天記錄等大

雲首推私有雲存儲意欲搶占更多用戶市場

企業 高性能 海量數據 主機 雲服務 當前 單點 海量 stack 騰訊雲首推私有雲存儲,意欲搶占更多用戶市場 8月23日,騰訊雲於2017騰訊“雲+未來”峰會北京站,面向全球用戶,重磅推出了智能雲存儲新品系列。其中,為給各行業領域提供更多能滿足其私有存儲需求的公有雲服務,

雲服務器新用戶優惠8元一個月

alt col creat 配置 pro 用戶 text https amd 配置低了些,但價格便宜,可以作為學習練手用 活動鏈接:https://cloud.tencent.com/act/group/amd/detail?from=10137&group=51527&

ssh連線上雲、華為雲Linux伺服器一會就自動斷開

客戶端向服務端傳送心跳 依賴 ssh 客戶端定時傳送心跳,putty、SecureCRT、XShell 都有這個功能。 Linux / Unix 下,編輯 ssh 配置檔案: # vim /etc/ssh/ssh_config 新增 ServerAliveInterval 20ServerAliveC

新出了一款音樂app它能代替QQ音樂嗎?

在國內,QQ音樂擁有最大的音樂版權庫,是名副其實的財大氣粗。有許多好聽的歌,只能在QQ音樂找到。而且,它緊跟潮流趨勢,哪些歌曲點選率和收聽率高,短短几天內,如果使用者想下載到本地,就需要付費了,非常會抓取使用者的心思來盈利。不過,QQ音樂的付費情況也是能為大眾所接受的,每個月不到十塊錢。但是對於那些想聽簡

:曾經的【榮耀王者】如今的【絕地求生】

《笑傲江湖》中寫到,“有人的地方,就有江湖。”而在網際網路領域,有人的地方就有話題。這兩天,關於網際網路新趨勢、新技術的討論就在烏鎮的各個角落展開。 包括騰訊董事局主席馬化騰、360董事長周鴻禕、位元組跳動CEO張一鳴等等眾多老熟人再次聚到一起,共同話題肯定不會少。談創新、

雲與MariaDB 基金會簽署戰略合作共建全球開源生態圈

本文由雲+社群發表 騰訊雲日前與MariaDB基金會正式簽署戰略合作協議,2019年,騰訊雲將繼續以白金會員身份為基金會的發展提供強有力的資源支援,與MariaDB全球使用者和開發者一道,共建開放共贏的全球開源生態圈。 MariaDB基金會CEO Arjen Lentz表示:“一年以來,騰訊云為Maria

產品總監:我工作十年內心仍無比恐慌

轉載地址:http://www.chinaz.com/manage/2015/1127/476037.shtml; 本文是曹菲在饅頭商學院發表的演講記錄,曹菲是騰訊產品研發中心總監 (騰訊,中國最大的網路公司,QQ 和微信都是它的)。 本文有相當程度的專業性,行外人不一定能夠咀嚼

雲centos服務器修改/etc/hosts使其重啟不失效

添加 發現 with zed 還原 -h centos服務 lac local 騰訊雲centos服務器修改/etc/hosts,使其重啟不失效 使用騰訊雲的服務器,我修改了/etc/hosts文件,然後操作了一下重啟操作後,一打開/etc/hosts文件便如以下: #

、頭條、網易面試中“刻意練習”才是王道!

2018年8月19號投了PM崗位,20號小姐姐給我打電話,說已通過簡歷篩選和綜合考量,約個時間進行下一步面試。 在接到網易電話的前一天,收到了騰訊、今日頭條的面試邀請郵件。 說明:因為現居廣州,所以都是遠端視訊面試。 騰訊: 騰訊面試的過程很尷尬,我沒說多少,面試官卻

Bugly乾貨分享】深入理解 ButterKnife讓你的程式學會寫程式碼

0、引子 話說我們做程式設計師的,都應該多少是個懶人,我們總是想辦法驅使我們的電腦幫我們幹活,所以我們學會了各式各樣的語言來告訴電腦該做什麼——儘管,他們有時候也會誤會我們的意思。 突然有一天,我覺得有些程式碼其實,可以按照某種規則生成,但你又不能不

TCTF決賽首日:賽場內爭先恐後賽場外如火如荼 | FreeBuf現場報道

2017-06-03 AngelaY FreeBuf 6月2日,深圳EPC藝術中心,多雲。 一大清早,南方夏天特有的溼熱天氣就讓人感受到撲面而來的熱情,在這樣的環境中,同樣火熱的首屆騰訊資訊保安爭霸賽(Tencent Capture The Flag,簡稱T

面試題:模板實現一個棧要求Push(入棧)Pop(出棧)Max(返回最大值的操作)的時間複雜度為O(1)

解題思路:要用模板實現亂序入棧的陣列每次pop()出棧都能得到當前棧中Max的最大值,就必須在push()入棧時進行維護操作,使的每次入棧的元素都能夠找到合適的位置並push(),每次push()操作完成後棧中的元素都能夠按從棧頂到棧底從大到小排列即可。這就需要寫一個不同於常

Domain Adaptive Faster R-CNN:經典域自適應目標檢測演算法解決現實中痛點程式碼開源 | CVPR2018

> 論文從理論的角度出發,對目標檢測的域自適應問題進行了深入的研究,基於H-divergence的對抗訓練提出了DA Faster R-CNN,從圖片級和例項級兩種角度進行域對齊,並且加入一致性正則化來學習域不變的RPN。從實驗來看,論文的方法十分有效,這是一個很符合實際需求的研究,能解決現實中場景多樣

論文閱讀——橢圓檢測演算法 2018 使用梯度分析利用錯誤檢測控制的精確橢圓檢測

        本文是2018年《Pattern Recognition》期刊(2區SCI)上的一篇文章,是最新的橢圓檢測,論文題目為《Accurate detection of ellipses with false detection control at

蘋果推出公眾號真是向低頭嗎?

尊嚴 硬件 應用 store ima 功能 本地 當下 集中 1月18日,蘋果推出了微信公號“Apple”,該公眾號提供了關於蘋果的最新資訊、選購產品的入口、各種新技能,還能找到你附近的Apple Store零售店,同時支持微信支付。不少媒體和相關業內人士的解讀是這是蘋果向

技術工程 |AI Lab刷新人臉識別與檢測兩大測評國際記錄技術日調用超六億

smp 數據 ans mib idt 檢測平臺 eight 分享圖片 其他 2017年12月18日,深圳 - 騰訊AI Lab研發的Face R-FCN和FaceCNN算法分別在國際最大、最難的人臉檢測平臺WIDER FACE與最熱門權威的人臉識別平臺MegaFace多項評

AI+遊戲:高效利用樣本的強化學習 | AI Lab學術論壇演講

騰訊 AI 人工智能 3月15日,騰訊AI Lab第二屆學術論壇在深圳舉行,聚焦人工智能在醫療、遊戲、多媒體內容、人機交互等四大領域的跨界研究與應用。全球30位頂級AI專家出席,對多項前沿研究成果進行了深入探討與交流。騰訊AI Lab還宣布了2018三大核心戰略,以及同頂級研究與出版機構自然科研的