1. 程式人生 > >Facebook人工智慧實驗室提出「全景分割」,實現例項分割和語義分割的統一

Facebook人工智慧實驗室提出「全景分割」,實現例項分割和語義分割的統一

?wx_fmt=gif&wxfrom=5&wx_lazy=1

?wx_fmt=png&wxfrom=5&wx_lazy=1

原文來源arxiv

作者:Alexander Kirillov、Kaiming He1、Ross Girshick、Carsten Rother、Piotr Dollar

「雷克世界」編譯:嗯~阿童木呀、KABUDA

現如今,我們提出並研究了一種新的“全景分割”(Panoramic segmentation,PS)任務。可以這樣說,全景分割將傳統意義上相互獨立的例項分割(檢測和分割每個目標例項)和語義分割(為每個畫素分配一個類標籤)任務統一起來了。這種統一是自然的,並在一種孤立的研究狀態中呈現出一種既不存在於例項中,也不存在於語義分割中的全新的挑戰。為了衡量任務執行的效能表現,我們引入了一種全景質量(panoptic quality ,PQ)度量標準,並表明它非常簡單且具有可解釋性。在使用PQ的情況下,我們在三個現有資料集上研究了人類效能表現,其中,這些資料集要有必要的PS註釋,這將有助於我們對任務和度量標準進行更好的理解。我們還提出了一種基本的演算法方法,將例項和語義分割的輸出結合到全景輸出中,並將其與人類的效能表現進行比較。可以這樣說,在分割和視覺識別方面,PS可以作為其未來挑戰的基礎。我們的目標是通過邀請社群探索所提出的全景分割任務從而推動在全新方向的研究。

?wx_fmt=png

對於給定的(a)影象,我們展示了以下任務的參照標準:(b)語義分割(每個畫素具有類標籤),(c)例項分割(每個目標具有掩碼和類標籤),以及(d)提出的全景分割(PS)任務(每個畫素具有類+例項標籤)。全景分割泛化了語義和例項分割,並要求識別和描繪影象中的每個可見的目標和區域。我們希望這個統一的分割任務能夠提出新的挑戰,並創造新的方法。

在計算機視覺發展的早期,things(事物)——諸如人、動物、工具等可以計數的物體,得到了佔據主導地位的關注。在質疑這種趨勢是否存在智慧性時,Adelson提高了研究系統的重要性,而這種系統能夠識別出stuff(材料)——諸如草、天空、道路等類似質地或原料的非晶區域。事物和材料之間的這種二分法一直沿用至今,既反映在視覺識別任務的劃分上,也體現在針對事物和材料任務開發的專用演算法中。

學習材料的任務通常被看作是一項稱之為語義分割的任務,見圖1b。由於材料是無定形的、不可數的,這個任務被定義為簡單地為影象中的每個畫素分配一個類別標籤(注意,語義分割將事物類別視為材料)。相比之下,研究事物的任務通常被表述為目標檢測或例項分割任務,其目的是檢測出每個目標,並用邊界框或分割掩碼對其進行描述,參見圖1c。雖然這兩個視覺識別任務看似相關,但是在資料集、細節和度量標準上有很大的不同。

?wx_fmt=png

分割瑕疵。影象被縮放和裁剪。頂部行(Vistas影象):兩個註釋器都將目標識別為一輛汽車,然而,人將一輛汽車分成了兩輛車。底行(Cityscapes影象):分割是非常模糊的。

語義和例項分割之間的分裂導致了這些任務方法中出現了平行分裂。材料分類器通常建立在具有擴張的完全卷積網路上,而目標檢測器通常使用的是目標提案(object proposals),且是基於區域的。在過去的十年中,這些任務的總體演算法進展是不可思議的,然而,如果將這些任務孤立起來看,就可能會忽略一些重要的內容。

在這項研究中,我們會問:things和stuff之間是否可以和解?是否存在這樣一個簡單的問題表述,能夠優雅地將這兩個任務涵蓋在內?一個統一的視覺識別系統會是什麼樣子的呢?

?wx_fmt=png

分類瑕疵。影象被縮放和裁剪。頂部行(ADE20k圖片):簡單的錯誤分類。底行(Cityscapes影象):現場是非常困難進行分類的的,有軌電車是正確的分類。其中許多錯誤難以解決。

考慮到這些問題,我們提出一個既包含things又包含stuff的新任務。我們將所得到的任務稱為全景分割(PS)。全景的定義是“一個檢視中可見的一切”,在我們的上下文中,全景檢視指的是分割的統一的全域性檢視。PS的任務表達看似簡單:影象的每個畫素都必須分配一個語義標籤和一個例項ID。具有相同標籤和ID的畫素屬於同一個目標,而對於材料標籤而言,例項ID被忽略。參照標準和機器預測都必須有這種形式。見圖1d的視覺化。

全景分割是語義分割和例項分割的泛化,但引入了新的演算法挑戰。與語義分割不同,全景分割需要區分單個目標例項; 這對完全卷積網路提出了挑戰。與例項分割不同的是,在全景分割中目標分割中必須是非重疊的,這對獨立於操作每個目標的基於區域的方法提出了挑戰。 而且,這項任務需要同時識別出things和stuff。為全景分割設計一個乾淨的、端到端的系統是一個開放的問題,需要探索創新的演算法思想。

?wx_fmt=png

Cityscapes(左二)和ADE20k(右三)的全景分割結果。預測是基於最先進的例項和語義分割演算法的合併輸出進行的。匹配部分的顏色(IoU> 0.5)(交叉陰影圖案表示不匹配的區域,黑色表示未標記的區域)。最呈現的是最好的顏色和變焦。

我們新的全景分割任務需要一個新的度量標準。我們努力使我們的度量標準完整、可解釋、簡單。或許,令人驚訝的是,對於我們這看起來複雜的任務,存在一個滿足這些性質的自然度量標準。我們定義了全景質量(PQ)度量標準,並且表明了它可以被分解為兩個可解釋的術語:分割質量(SQ)和檢測質量(DQ),而且還可以進一步細分精度。

由於全景分割的參照標準(ground truth)和演算法輸出都必須採用相同的形式,因此我們可以在全景分割上對人類效能(human performance)進行詳細的研究。這使我們能夠更詳細的瞭解全景質量度量標準,包括檢測與分割的詳細分析,以及材料與事物(stuff 和things)的效能對比。並且,測量人體PQ有助於我們理解機器的效能。這點非常重要,因為它可以讓我們監測全景分割中各種資料集上的效能飽和度。

最後,我們對全景分割的機器效能進行初步研究。為此,我們確定了一個簡單但可能不是最優的啟發式演算法,該演算法通過一系列後處理步驟(post-processing steps)(實際上是一種非最大抑制的複雜形式)將兩個獨立系統的輸出結合起來進行語義和例項分割。我們的啟發式演算法為全景分割建立了一個基線,併為我們提供了有關它所呈現出的主要演算法挑戰(main algorithmic challenges)的見解。

我們在三個通用分割資料集上研究了人和機器的效能,這三個資料集都包含材料與事物(stuff 和 things)註釋。這些資料集分別是Cityscapes、ADE20k和Mapillary Vistas。對於每個資料集,我們都直接從挑戰組織者那裡獲得了最先進方法的結果。在未來,我們將把分析工作擴充套件到COCO(在COCO中材料(stuff)被註釋)上。我們將這些資料集合在一起,為研究人類和機器在全景分割上的表現奠定了堅實的基礎。

我們的目標是通過邀請社群以探索新的全景分割任務從而推動新方向的研究。我們認為,擬定的任務會導致預期之內和預期之外的創新。最後,我們來探討一下這些可能性以及我們未來的計劃。

出於簡單化的目的,本文中提出的PS“演算法”是基於最優執行例項和語義分割系統中輸出的啟發式組合。這個方法是基本性的第一步,但我們希望引入更多有趣的演算法。具體而言,我們希望看到全景分割至少在兩個方面的創新:(1)深度整合的端到端模型可同時解決全景分割的雙重性質。許多例項分割方法都被設計為用於產生不重疊的例項預測,並可以作為此係統的基礎。(2)由於全景分割不能有重疊的部分,因此某種形式的高層次“推理”可能是有益的,例如,將基於可學習的NMS擴充套件到全景分割中。我們希望全景分割任務能夠推動這些領域的研究,進而帶來令人眼前一亮的新突破。

歡迎個人分享,媒體轉載請後臺回覆「轉載」獲得授權,微信搜尋「BOBO_AI」關注公眾號

中國人工智慧產業創新聯盟於2017年6月21日成立,超200家成員共推AI發展,相關動態:

640.png點選下圖加入聯盟

0.png

?wx_fmt=gif

關注“雷克世界”後不要忘記置頂

我們還在搜狐新聞、雷克世界官網、騰訊新聞、網易新聞、一點資訊、天天快報、今日頭條、雪球財經……

↓↓↓點選閱讀原文檢視中國人工智慧產業創新聯盟手冊

相關推薦

Facebook人工智慧實驗室提出全景分割實現例項分割語義分割統一

原文來源:arxiv作者:Alexander Kirillov、Kaiming He1、Ross

何愷明大神的Focal Loss如何更好地理解?

轉自:http://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/78920998   作者丨蘇劍林 單位丨廣州火焰資訊科技有限公司 研究方向丨NLP,神經網路 個人主頁丨kexue.fm   前言

5個Excel最常見的錯誤值這些含義你都知道嗎?

在職場辦公中,很多朋友都會遇到這樣的情況,明明自己輸入的是正確的公式,但顯示出來的數值卻 是錯誤值,那你知道他們都是什麼含義嗎?不知道的趕緊來看。 一、【#DIV/0】 錯誤原因:公式中有除數為0或者除數為空的單元格。 解決方法:更正除數為0或者除數為空的單元格

天天寫業務程式碼如何成為技術大牛

不管是開發、測試、運維,每個技術人員心理多多少少都有一個成為技術大牛的夢,畢竟“夢想總是要有的,萬一實現了呢”!正是對技術夢的追求,促使我們不斷地努力和提升自己。然而…… 前言 然而“夢想是美好的,現實卻是殘酷的”,很多同學在實際工作後就會發現,夢想是成為大牛,但做的事情看起來

面試題如何實現一個聖盃佈局?

前言 最近,有個朋友向我訴苦說,面試的時候突然被問到了如何實現佈局和原理,有點懵。之前JavaScript的部分回答得挺好的,偏偏在這裡翻船了,完全沒有思路,後面的面試狀態一落千丈。結局也如他所料,沒有被錄取。 我給這個朋友做了解答之後,回家整理出此文。希望其他小夥伴面試中,再被問及

Netflix 不想交蘋果稅新使用者不能在 iOS 端付費了

新上線的電影《黑鏡》的開放式結局讓 Netflix 又一次重新整理了觀眾的觀影體驗,而這家已經成為流媒體行業標杆的公司也有了更多的底氣拒絕「蘋果稅」,他們宣佈今後新使用者將無法從 iOS 渠道付費,建議從網頁端訂閱服務。     「我們不再支援 iTunes 作為新使用

通過刻意練習你才能成為頂尖的程式設計師

作家格拉德威爾在《異類》一書中指出: 人們眼中的天才之所以卓越非凡,並非天資超人一等,而是付出了持續不斷的努力。1萬小時的錘鍊是任何人從平凡變成超凡的必要條件。 他將此稱為「一萬小時定律」。 要成為某個領域的專家,需要10000小時,按比例計算就是:如果每天工

螞蟻金服釋出定損寶推動影象定損技術在車險領域的應用

6 月 27 日,螞蟻金服在北京宣佈向保險行業全面開放技術產品「定損寶」,用 AI 技術模擬車險定損環節中的人工作業流程,幫助保險公司實現簡單高效的自動定損,成為影象定損技術在車險領域的首次商業應用。 人工智慧技術在金融產業取得突破性發展的大背景下,Fintech(金融科技)應運而生的產物。如何在金融

大廠 | 入職前的背景調查到底在查什麼?

網際網路求職者在接受某些中大型企業面試後,時常有人接到一通電話,電話那頭的聲音往往如此告知求職者

一口氣搞懂檔案系統就靠這 25 張圖了

前言 不多 BB,直接上「硬菜」。 正文 檔案系統的基本組成 檔案系統是作業系統中負責管理持久資料的子系統,說簡單點,就是負責把使用者的檔案存到磁碟硬體中,因為即使計算機斷電了,磁盤裡的資料並不會丟失,所以可以持久化的儲存檔案。 檔案系統的基本資料單位是檔案,它的目的是對磁碟上的檔案進行組織管理,那組

大廠面試愛問的排程演算法20 張圖一舉拿下

前言 最近,我偷偷潛伏在各大技術群,因為秋招在即,看到不少小夥伴分享的大廠面經。 然後發現,作業系統的知識點考察還是比較多的,大廠就是大廠就愛問基礎知識。其中,關於作業系統的「排程演算法」考察也算比較頻繁。 所以,我這邊總結了作業系統的三大排程機制,分別是「程序排程/頁面置換/磁碟排程演算法」,供大家複習

23張圖!萬字詳解連結串列從小白到大佬!

連結串列和陣列是資料型別中兩個重要又常用的基礎資料型別,陣列是連續儲存在記憶體中的資料結構,因此它的優勢是可以通過下標迅速的找到元素的位置,而它的缺點則是在插入和刪除元素時會導致大量元素的被迫移動,為了解決和平衡此問題於是就有了連結串列這種資料型別。 連結串列和陣列可以形成有效的互補,這樣我們就可以根據不

編寫一個檔案分割工具能把一個大檔案分割成多個小的檔案。並且能再次把它們合併起來得到完整的檔案。

package wenjianyuliu;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io

編寫一個檔案分割工具能把一個大檔案分割成多個小的檔案。並且能再次把他們合併起來得到完整的檔案

package wenjian; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java

R-CNN論文翻譯:豐富的功能層次結構用於精確的物件檢測語義分割

R-CNN論文地址:R-CNN R-CNN專案地址:  http://www.rossgirshick.info/ 摘要 在典型的PASCAL VOC資料集上測量的物件檢測效能在過去幾年中已經穩定下來。最好的方法是複雜的系統,通常將多個低階影象特徵與高階語境相結合。在本文中,我們

例項分割(instance segmentation)語義分割(semantic segmentation)的區別

本文記錄了例項分割和語義分割這兩個名詞在概念上的不同。更新於2018.12.21。   例項分割(instance segmentation):是在畫素級定位出目標,也就是說把描述目標的所有畫素都標註出來; 語義分割(semantic segmentation):是對一個場

RCNN系列(2):Fast R-CNN—用於精準目標檢測語義分割的快速功能結構~

論文地址: Fast R-CNN 0. 摘要   該論文對上一篇R-CNN進行改進,在訓練速度,推斷速度和精度上都有了很大的提升。 1. 介紹   相比於分類,目標檢測的計算代價大幅提升,這是因為目標檢測除了分類還需要精準的定位,帶來了兩個方面的問題,涉及速度,精度和模型

RCNN系列(1):R-CNN—用於精準目標檢測語義分割的功能結構

論文地址: Rich feature hierarchies for accurate object detection and semantic segmentation MATLAB實現:github連結 0. 摘要   論文中提出的方法包含兩個關鍵的點 將卷積神

影象語義分割(9)-DeepLabV3: 再次思考用於影象語義分割的空洞卷積

論文地址 :Rethinking Atrous Convolution for Semantic Image Segmentation 論文程式碼:Github連結 1. 摘要   文章主要的工作: 使用空洞卷積來調整濾波器的感受野並控制特徵圖解析度 使用不同空

影象語義分割(6)-RefineNet:用於高解析度影象語義分割的帶有恆等對映的多路精細網路

論文地址 :RefineNet: Multi-Path Refinement Networks with Identity Mappings for High- Resolution Semantic Segmentation 論文程式碼:github連結 1. 問題提出   使