1. 程式人生 > 實用技巧 >來自Google AI:DELG,統一全域性和區域性特徵的例項識別研究

來自Google AI:DELG,統一全域性和區域性特徵的例項識別研究

點選上方“AI公園”,關注公眾號,選擇加“星標“或“置頂”


作者:Cam Askew and André Araujo

編譯:ronghuaiyang

導讀

本文介紹了Google AI在例項識別領域的最新進展DELG,將全域性和區域性特徵的提取統一到了一個模型中。

論文:https://arxiv.org/abs/2001.05027

程式碼:https://github.com/tensorflow/models/tree/master/research/delf

Instance-level recognition (ILR)是識別一個的特定例項的計算機視覺任務,而不僅僅是它所屬的類別。例如下圖中,我們希望得到的是“梵高的星空”,“巴黎的凱旋門”而不是“後印象派繪畫”以及“拱門”這樣的標籤。例項識別問題存在於許多領域,如地標、藝術品、產品或商標,並且在視覺搜尋應用、個人照片管理、購物等領域都有應用。在過去的幾年中,谷歌對於ILR的研究貢獻包括:Google Landmarks Dataset , Google Landmarks Dataset v2 (GLDv2)以及新的模型包括 DELF 和Detect-to-Retrieve。

對於自藝術品、地標和產品,有三種類型的影象識別問題,分佈具有不同級別的標籤(基本、細粒度、例項)。在我們的工作中,我們關注於例項識別。

在本文中,我們的重點是在ECCV ' 20上的Instance-Level Recognition研討會上的一些結果。這個workshop的內容包括“DEep Local and Global features” (DELG),最先進的影象特徵例項識別模型,並給出了DELG以及其他一些ILR技巧的開原始碼。會中同時還提出了基於GLDv2的兩個新的里程碑式挑戰(關於識別和檢索任務),以及擴充套件到其他領域的未來ILR挑戰:藝術品識別商品品檢索。研討會的長期目標和挑戰是通過統一來自不同領域的研究工作流程,促進ILR領域的進步,並推動該領域的最新進展,迄今為止,這些研究工作大多是用來解決單獨的問題的。

DELG:深度區域性和全域性特徵

有效的影象表示是解決例項識別問題的關鍵。通常需要兩種型別的表示:全域性和區域性影象特徵。全域性特徵概括了影象的全部內容,導致一種緊湊的表示,但捨棄了例項中比較獨特的視覺元素的空間排列資訊。另一方面,區域性特徵包括關於特定影象區域的描述和幾何資訊,它們在描繪同一物體的影象匹配時特別有用。

目前,大多數依賴這兩種特徵的系統需要使用不同的模型分別利用它們,這會導致冗餘計算,降低整體效率。為了解決這個問題,我們提出了DELG,一個用於區域性和全域性影象特徵的統一模型。

DELG模型利用了一個全卷積神經網路,它有兩個不同的頭:一個用於全域性特徵,另一個用於區域性特徵。利用深度網路層的特徵圖進行聚合,得到全域性特徵,有效地總結了輸入影象的顯著特徵,使模型對輸入的細微變化具有更強的魯棒性。區域性特徵分支利用中間特徵圖來檢測重要的影象區域,在注意力模組的幫助下,產生描述符,通過讓描述符具有可區分性的方式來表示相關的區域性內容。

我們提出的DELG模型(左)。全域性特徵可用於基於檢索的系統的第一階段,有效地選擇最相似的影象(下)。然後利用區域性特徵對top-level的結果進行重新排序(右上),提高系統的精度。

這種新穎的設計可以進行高效的推理,因為它可以在單一模型中提取全域性和區域性特徵。第一次,我們證明了這樣一個統一的模型可以端到端訓練,併為例項識別任務提供最先進的結果。與以往的全域性特徵相比,該方法的平均平均精度比其他方法高7.5%,在區域性特徵重排序階段,基於delg的結果比之前的工作提高了7%。整體而言,DELG在GLDv2識別任務上的平均準確率達到了61.2%,除了2019 challenge中的兩種方法外,超過了其他的所有方法。注意,2019 challenge中的所有方法都進行了複雜模型的整合,而我們的結果只使用一個單一的模型。

Tensorflow 2 的開原始碼

為了進一步的研究和復現,我們釋出了程式碼,包括DELG和其他例項識別相關技術,如DELF和Detect-to-Retrieve。我們的程式碼採用了最新的Tensorflow 2,除了影象檢索和匹配功能外,還提供了模型訓練和推斷的參考實現。

例項識別的新挑戰

在地標領域,[谷歌地標資料集v2](https://ai.googleblog.com/2019/05/announcing-google-landmarks-v2- improvement .html) (GLDv2)是用於例項識別的最大的可用資料集,擁有500萬張跨越20萬個類別的影象。通過在該資料集上訓練裡地標檢索模型,我們已經證明與早期資料集上訓練的模型相比,提高了高達6%的平均平均精度。

今年,我們還在地標領域發起了兩個新的挑戰,一個關注於識別,另一個關注於檢索。這些比賽使用了新收集的測試集和新的評估方法:參賽者必須提交執行在Kaggle伺服器上的模型和程式碼,而不是上傳預先計算好的預測CSV檔案,以計算預測的得分和排名。這種有限制的計算環境突出了高效和實用的解決方案。

挑戰賽吸引了1200多支隊伍參賽,比去年增加了3倍,參賽隊伍比我們強大的DELG基線取得了顯著的進步。在識別任務中,得分最高的小組提交的平均準確率相對提高43%,在檢索任務中,獲勝小組的平均準確率相對提高59%。後一種結果是通過更有效的神經網路、池化方法和訓練協議的結合實現的(詳見Kaggle競賽網站)。

通過這項研究、開放原始碼、資料和挑戰,我們希望能夠推動例項識別的進步,並使來自不同社群的研究人員和機器學習愛好者能夠開發出跨不同領域的泛化方法。

—END—

英文原文:https://ai.googleblog.com/2020/09/advancing-instance-level-recognition.html

請長按或掃描二維碼關注本公眾號

喜歡的話,請給我個在看吧