1. 程式人生 > 資訊 >“跨次元”目標檢測模型 hold 住各種畫風,還能識別漫畫中物品

“跨次元”目標檢測模型 hold 住各種畫風,還能識別漫畫中物品

1 月 16 日訊息,目標檢測種類多達 20000+ 種的 AI,你見過嗎?不僅準確“揪出”每個物體所在的位置,分類效果非常準確:

插畫版賽博恐龍也沒問題:

甚至還能檢測雜誌封面甚至漫畫中的物體!

這也是把目標檢測給玩出花來了,據作者表示模型在長尾問題等細節上的處理非常好,像獅子和狐狸這種少樣本也能準確識別:

這項研究來自 Meta AI 和得克薩斯大學奧斯汀分校,一作是著名目標檢測框架 CenterNet 的作者、復旦校友 Xingyi Zhou。

一起來看看。

可識別“跨次元”物體

這篇論文提出了一種新的名為 Detic 的方法,用來解決目標檢測無法用到影象級標籤(給一整張圖打標籤,標註裡面有什麼物體)的問題。

此前的目標檢測方法,通常是一個檢測框裡一個物體:

這種方法有一個問題,就是沒辦法利用整個影象級標籤,只能用單個物體的圖片進行訓練。

也有一些研究想出了一種新方法,搞個弱監督學習,試圖讓 AI 自己學會將影象級的標籤,去對應錨定框裡面有什麼物體,但實際上這種方法的效果也不太好。

Detic 的方法是採用目標檢測資料(a)和影象標籤資料(b)對 Detic 進行混合訓練。

其中,在用目標檢測資料訓練 Detic 時,同時對影象分類模組 W 和目標檢測模組 B 進行訓練,但只用標籤資料對影象分類模組 W 進行訓練。

訓練的資料集採用的是 ImageNet,事實證明模型在訓練後無需微調,就能很好地適應到 LVIS 等資料集,相對之前的一些模型都達到了不錯的效果:

論文表示,Detic 能分類的圖片型別也是多種多樣,從真實照片到賽博恐龍插畫這樣的“跨次元”作品都能識別

這立刻吸引了不少網友來玩。

線上 Demo 可玩

有網友用梵高的世界名畫試了試。

放大一點來看,藝術加工後的椅子、人和桌子也能被識別:

還有用二次元的龍貓進行識別的,除了龍貓本身被錯認成貓頭鷹以外,其他的雨傘和靴子都認得不錯:

我們也隨便用一個鐘錶櫃的照片試了試,線上 Demo 的檢測時間稍微有點久,大約需要 6 分鐘左右,但效果還不錯:

細看的話還是能發現一些瑕疵,例如把部分手錶誤認成轉速計、以及懷錶和時鐘,以及也有一兩塊手錶沒有被檢測出來。

不過,即使在二次元和插畫中,這個 AI 能識別的物體,至少也需要在真實世界出現過

例如,超出 20000 個分類的物體,如噴火龍和皮卡丘,就不在 AI 的監測範圍內了,全部被認成了猴子(狗頭):

將這些二次元角色也加入 AI 訓練資料集中,不知能否取得同樣的檢測效果。

作者介紹

▲這張照片是“女朋友拍的”

論文一作 Xingyi Zhou,目前在德克薩斯大學奧斯汀分校讀博,本科就讀於復旦大學計算機系,之前也是 CenterNet 論文的第一作者,專案在 GitHub 上目前已經收穫 6.1k Star。

Rohit Girdhar、Armand Joulin 和 Ishan Misra,Meta AI 的研究科學家,主要研究方向是機器學習和計算機視覺,此前 Armand Joulin 曾經在李飛飛的實驗室進行博士後工作。

Philipp Krähenbühl,得克薩斯大學奧斯汀分校助理教授,Xingyi Zhou 的導師,研究方向是計算機視覺、機器學習和計算機圖形學。

感興趣的小夥伴,趕緊試試你想玩的漫畫、或是雜誌插畫吧~

Demo 地址:點選開啟

論文地址:點選開啟

參考連結: