1. 程式人生 > >綜述論文翻譯:A Review on Deep Learning Techniques Applied to Semantic Segmentation

綜述論文翻譯:A Review on Deep Learning Techniques Applied to Semantic Segmentation

應用於語義分割問題的深度學習技術綜述

摘要

計算機視覺與機器學習研究者對影象語義分割問題越來越感興趣。越來越多的應用場景需要精確且高效的分割技術,如自動駕駛、室內導航、甚至虛擬現實與增強現實等。這個需求與視覺相關的各個領域及應用場景下的深度學習技術的發展相符合,包括語義分割及場景理解等。這篇論文回顧了各種應用場景下利用深度學習技術解決語義分割問題的情況:首先,我們引入了領域相關的術語及必要的背景知識;然後,我們介紹了主要的資料集以及對應的挑戰,幫助研究者選取真正適合他們問題需要及目標的資料集;接下來,我們介紹了現有的方法,突出了各自的貢獻以及對本領域的積極影響;最後,我們展示了大量的針對所述方法及資料集的實驗結果,同時對其進行了分析;我們還指出了一系列的未來工作的發展方向,並給出了我們對於目前最優的應用深度學習技術解決語義分割問題的研究結論。

1 引言

如今,語義分割(應用於靜態2D影象、視訊甚至3D資料、體資料)是計算機視覺的關鍵問題之一。在巨集觀意義上來說,語義分割是為場景理解鋪平了道路的一種高層任務。作為計算機視覺的核心問題,場景理解的重要性越來越突出,因為現實中越來越多的應用場景需要從影像中推理出相關的知識或語義(即由具體到抽象的過程)。這些應用包括自動駕駛[1,2,3],人機互動[4],計算攝影學[5],影象搜尋引擎[6],增強現實等。應用各種傳統的計算機視覺和機器學習技術,這些問題已經得到了解決。雖然這些方法很流行,但深度學習革命讓相關領域發生了翻天覆地的變化,因此,包括語義分割在內的許多計算機視覺問題都開始使用深度架構來解決,通常是卷積神經網路

CNN[7-11],而CNN在準確率甚至效率上都遠遠超過了傳統方法。然而,相比於固有的計算機視覺及機器學習分支,深度學習還遠不成熟。也因此,還沒有一個統一的工作及對於目前最優方法的綜述。該領域的飛速發展使得對初學者的啟蒙教育比較困難,而且,由於大量的工作相繼被提出,要跟上發展的步伐也非常耗時。於是,追隨語義分割相關工作、合理地解釋它們的論點、過濾掉低水平的工作以及驗證相關實驗結果等是非常困難的。

就我所知,本文是第一篇致力於綜述用於語義分割的深度模型技術的文章。已經有較多的關於語義分割的綜述調查,比如[12,13]等,這些工作在總結、分類現有方法、討論資料集及評價指標以及為未來研究者提供設計思路等方面做了很好的工作。但是,這些文章缺少對某些最新資料集的介紹,他們不去分析框架的情況,而且沒有提供深度學習技術的細節。因此,我們認為本文是全新的工作,而且這對於深度學習相關的語義分割社群有著重要意義。

1物體識別或場景理解相關技術從粗粒度推理到細粒度推理的演變:四幅圖片分別代表分類、識別與定位、語義分割、例項分割。

本文核心貢獻如下:

1)我們對於現有的資料集給出了一個全面的調查,這些資料集將會對深度學習技術推動的分割專案發揮作用;

2)我們對於多數重要的深度學習語義分割方法進行了深度有條理的綜述,包括他們的起源、貢獻等;

3)我們進行了徹底的效能評估,使用了多種評價指標如準確率、執行時間、記憶體佔用等;

4)我們對以上結果進行了討論,並給出了未來工作的一系列可能的發展方向,這些方向可能在未來的發展程序中取得優勢。我們還給出了該領域目前最好方法的總結。

本文剩餘部分安排:

第二章介紹了語義分割問題,同時引入了相關工作中常用的符號、慣例等。其他的背景概念如通用的深度神經網路也在這章中回顧;

第三章介紹了現有的資料集、挑戰及實驗基準;

第四章回顧了現有方法,基於其貢獻自下而上排序。本章重點關注這些方法的理論及閃光點,而不是給出一個定量的評估;

第五章給出了一個簡短的對於現有方法在給定資料集上定量表現的討論,另外還有未來相關工作的發展方向;

第六章則總結全文並對相關工作及該領域目前最優方法進行了總結。

2 術語及背景概念

為了更好地理解語義分割問題是如何用深度學習框架解決的,有必要了解到其實基於深度學習的語義分割並不是一個孤立的領域,而是在從粗糙推理到精細化推理過程中很自然的一步。這可以追溯到分類問題,包括對整個輸入做出預測,即預測哪個物體是屬於這幅影象的,或者給出多個物體可能性的排序。對於細粒度推理來說,將接下來進行物體的定位與檢測,這將不止提供物體的類別,而且提供關於各類別空間位置的額外資訊,比如中心點或者邊框。這樣很顯然,語義分割是實現細粒度推理的很自然的一步,它的目標是:對每個畫素點進行密集的預測,這樣每個畫素點均被標註上期對應物體或區域的類別。這還可以進一步改進,比如例項分割(即對同一類的不同例項標以不同的標籤),甚至是基於部分的分割(即對已經分出不同類別的影象進行底層分解,找到每個類對應的組成成分)。圖1展示了以上提到的演變過程。在本文中,我們主要關注一般的場景標註,也就是畫素級別的分割,但是我們也會回顧例項分割及基於部分的分割的較重要的方法。

最後,畫素級別的標註問題可以鬆弛為以下公式:對於隨機變數集合中的每個隨機變數,找到一種方法為其指派一個來自標籤空間中的一個狀態。每個標籤表示唯一的一個類或者物體,比如飛機、汽車、交通標誌或背景等。這個標籤空間有個可能的狀態,通常會被擴充套件為  +1個,即視為背景或者空的類。通常,是一個二維的影象,包含W*H=N的畫素點x。但是,這個隨機變數的集合可以被擴充套件到任意維度,比如體資料或者超譜影象

除了問題的定義,回顧一些可能幫助讀者理解的背景概念也是必要的。首先是一些常見的被用作深度語義分割系統的網路、方法以及設計決策;另外還有用於訓練的一些常見的技術比如遷移學習等。最後是資料的預處理以及增強式的方法等。

2.1 常見的深度網路架構

正如之前所講,某些深度網路已經對該領域產生了巨大的貢獻,並已成為眾所周知的領域標準。這些方法包括AlexNetVGG-16GoogLeNet,以及ResNet。還有一些是由於其被用作許多分割架構的一部分而顯得重要。因此,本文將在本章致力於對其進行回顧。

2.1.1 AlexNet

AlexNet(以作者名字Alex命名)首創了深度卷積神經網路模型,在2012ILSVRCImageNet大規模影象識別)競賽上以top-5準確率84.6%的成績獲勝,而與之最接近的競爭者使用了傳統的而非深度的模型技術,在相同的問題下僅取得了73.8%的準確率。由Krizhecsky等人[14]給出的架構相對簡單,包括卷積層、max-pooling層及ReLU層各五層作為非線性層,全連線層三層以及dropout層。圖2給出了這個架構的示意。

2文獻[14]中給出的AlexNet卷積神經網路架構。

2.1.2 VGG

VGG是由牛津大學Visual Geometry Group提出的卷積神經網路模型(以課題組的名字命名)。他們提出了深度卷積神經網路的多種模型及配置[15],其中一種提交到了2013ILSVRCImageNet大規模影象識別)競賽上。這個模型由於由16個權重層組成,因此也被稱為VGG-16,其在該競賽中取得了top-592.7%的準確率。圖3展示了VGG-16的模型配置。VGG-16與之前的模型的主要的不同之處在於,其在第一層使用了一堆小感受野的卷積層,而不是少數的大感受野的卷積層。這使得模型的引數更少,非線性性更強,也因此使得決策函式更具區分度,模型更好訓練。

3  VGG-16卷積神經網路模型架構,本圖經許可取自Matthieu Cord的演講。

2.1.3 GoogLeNet

GoogLeNet是由Szegedy等人[16]提出的在ILSVRC-2014競賽上取得top-593.3%準確率的模型。這個CNN模型以其複雜程度著稱,事實上,其具有22個層以及新引入的inception模組(如圖4所示)。這種新的方法證實了CNN層可以有更多的堆疊方式,而不僅僅是標準的序列方式。實際上,這些模組由一個網路內部的網路層(NiN)、一個池化操作、一個大卷積核的卷積層及一個小核的卷積層組成。所有操作均平行計算出來,而後進行1×1卷積操作來進行降維。由於這些模組的作用,引數及操作的數量大大減少,網路在儲存空間佔用及耗時等方面均取得了進步

4 GoogLeNet框架中帶有降維的Inception模組。

2.1.4 ResNet

微軟提出的ResNet[17]由於在ILSVRC-2016中取得的96.4%的準確率而廣受關注。除了準確率較高之外,ResNet網路還以其高達152層的深度以及對殘差模組的引入而聞名。殘差模組解決了訓練真正深層網路時存在的問題,通過引入identity skip connections網路各層可以把其輸入複製到後面的層上。

本方法的關鍵想法便是,保證下一層可以從輸入中學到與已經學到的資訊不同的新東西(因為下一層同時得到了前一層的輸出以及原始的輸入)。另外,這種連線也協助解決了梯度消失的問題。

5 ResNet中的殘差模組。

2.1.5 ReNet

為了將迴圈神經網路RNN模型擴充套件到多維度的任務上,Graves等人[18]提出了一種多維度迴圈神經網路(MDRNN)模型,將每個單一的迴圈連線替換為帶有d個連線的標準RNN,其中d是資料的spatio-temporal維度。基於這篇工作,Visin等人[19]提出了ReNet模型,其不使用多維RNN模型,而是使用常見的序列RNN模型。這樣,RNN模型的數量在每一層關於d(輸入影象的維數2d)線性增長。在ReNet中,每個卷積層(卷積+池化)被4個同時在水平方向與豎直方向切分影象的RNN模型所替代,如圖6所示:

6 ReNet架構中的一層,對豎直與水平方向的空間依賴性建模

2.2 遷移學習

從頭訓練一個深度神經網路通常是不可行的,有這樣兩個原因:訓練需要足量的資料集,而這一般是很難得到的;網路達到收斂需要很長的時間。即便得到了足夠大的資料集並且網路可以在短時間內達到收斂,從之前的訓練結果中的權重開始訓練也總比從隨機初始化的權重開始訓練要好[20,21]。遷移學習的一種重要的做法便是從之前訓練好的網路開始繼續訓練過程來微調模型的權重值。

Yosinski等人[22]證明了即便是從較不相關的任務中遷移學習來的特徵也要比直接從隨機初始化學習的特徵要好,這個結論也考慮到了隨著提前訓練的任務與目標任務之間差異的增大,可遷移性將減小的情況。

然而,遷移學習技術的應用並沒有如此的直接。一方面,使用提前訓練的網路必須滿足網路架構等的約束,不過,因為一般不會新提出一個全新的網路結構來使用,所以使用現有的網路架構或網路元件進行遷移學習是常見的;另一方面,遷移學習中的訓練過程本身相對於從頭開始的訓練過程來說區別非常小。合理選擇進行微調的層是很重要的,一般選網路中較高的層因為底層一般傾向於保留更加通用的特徵;同時,合理地確定學習率也是重要的,一般選取較小的值,因為一般認為提前訓練的權重相對比較好,無需過度修改。

由於收集和建立畫素級別的分割標註資料集的內在的困難性,這些資料集的規模一般不如分類資料集如ImageNet[23,24]等的大。分割研究中資料集的規模問題在處理RGB-D3D資料集時更加嚴重,因為這些資料集規模更小。也因此,遷移學習,尤其是從提前訓練好的分類網路中微調而來的方式,將會成為分割領域的大勢所趨,並且已經有方法成功地進行了應用,我們將在後面幾章進行回顧。

2.3 資料預處理與資料增強

資料增強技術被證明了有利於通用的尤其是深度的機器學習架構的訓練,無論是加速收斂過程還是作為一個正則項,這也避免了過擬合併增強了模型泛化能力[15]

資料增強一般包括在資料空間或特徵空間(或二者均有)上應用一系列的遷移技術。在資料空間上應用增強技術最常見,這種增強技術應用遷移方法從已有資料中得到新的樣本。有很多的可用的遷移方法:平移、旋轉、扭曲、縮放、顏色空間轉換、裁剪等。這些方法的目標均是通過生成更多的樣本來構建更大的資料集,防止過擬合以及對模型進行正則化,還可以對該資料集的各個類的大小進行平衡,甚至手工地產生對當前任務或應用場景更加具有代表性的新樣本。

資料增強對小資料集尤其有用,而且其效用已經在長期使用過程中被證明。例如,在[26]中,有1500張肖像圖片的資料集通過設計4個新的尺寸(0.6,0.8,1.2,1.5),4個新的旋角(-45-22,22,45),以及4個新的gamma變化(0.5,0.8,1.2,1.5)被增強為有著19000張訓練影象的資料集。通過這一處理,當使用增強資料集進行微調時,其肖像畫分割系統的交疊準確率(IoU)從73.09%提升到了94.20%

3 資料集及競賽

以下兩種讀者應該閱讀本部分內容:一是剛剛開始研究本領域問題的讀者,再就是已經很有經驗但是想了解最近幾年其他研究者研究成果的可取之處的讀者。雖然第二種讀者一般很明確對於開始語義分割相關的研究來說資料集及競賽是很重要的兩個方面,但是對於初學者來說掌握目前最優的資料集以及(主流的)競賽是很關鍵的。因此,本章的目標便是對研究者進行啟發,提供一個對資料集的簡要總結,這裡面可能有正好他們需求的資料集以及資料增強或預處理等方面的技巧。不過,這也可以幫助到已經有深入研究的工作者,他們可能想要回顧基礎或者挖掘新的資訊。

值得爭辯的是,對於機器學習來說資料是最重要的或者最重要的之一。當處理深度網路時,這種重要性更加明顯。因此,收集正確的資料放入資料集對於任何基於深度學習的分割系統來說都是極為重要的。收集與建立一個足夠大而且能夠正確代表系統應用場景的資料集,需要大量的時間,需要領域專門知識來挑選相關資訊,也需要相關的基礎設施使得系統可以正確的理解與學習(捕捉到的資料)。這個任務的公式化過程雖然相比複雜的神經網路結構的定義要簡單,但是其解決過程卻是相關工作中最難的之一。因此,最明智的做法通常是使用一個現存的足夠可以代表該問題應用場景的標準資料集。使用標準資料集還有一個好處就是可以使系統間的對比更加公平,實際上,許多資料集是為了與其他方法進行對比而不是給研究者測試其演算法的,在對比過程中,會根據方法的實際表現得到一個公平的排序,其中不涉及任何資料隨機選取的過程。

接下來我們將介紹語義分割領域最近最受歡迎的大規模資料集。所有列出的資料集均包含畫素級別或點級別的標籤。這個列表將根據資料內在屬性分為3個部分:2維的或平面的RGB資料集,2.5維或帶有深度資訊的RGBRGB-D)資料集,以及純體資料或3維資料集。表1給出了這些資料集的概覽,收錄了所有本文涉及的資料集並提供了一些有用資訊如他們的被構建的目的、類數、資料格式以及訓練集、驗證集、測試集劃分情況。

常見的大規模分割資料集

3.1  2維資料集

自始至終,語義分割問題最關注的是二維影象。因此,二維資料集在所有型別中是最豐富的。本章我們討論語義分割領域最流行的二維大規模資料集,這考慮到所有的包含二維表示如灰度或RGB影象的資料集。

PASCAL視覺物體分類資料集(PASCAL-VOC[27] (http://host.robots.ox.ac.uk/pascal/VOC/voc2012/) :包括一個標註了的影象資料集和五個不同的競賽:分類、檢測、分割、動作分類、人物佈局。分割的競賽很有趣:他的目標是為測試集裡的每幅影象的每個畫素預測其所屬的物體類別。有21個類,包括輪子、房子、動物以及其他的:飛機、自行車、船、公共汽車、轎車、摩托車、火車、瓶子、椅子、餐桌、盆栽、沙發、顯示器(或電視)、鳥、貓、狗、馬、綿羊、人。如果某畫素不屬於任何類,那麼背景也會考慮作為其標籤。該資料集被分為兩個子集:訓練集1464張影象以及驗證集1449張影象。測試集在競賽中是私密的。爭議的說,這個資料集是目前最受歡迎的語義分割資料集,因此很多相關領域卓越的工作將其方法提交到該資料集的評估伺服器上,在其測試集上測試其方法的效能。方法可以只用該資料集訓練,也可以藉助其他的資訊。另外,其方法排行榜是公開的而且可以線上查詢。

PASCAL 上下文資料集(PASCAL Context [28]http://www.cs.stanford.edu/roozbeh/pascal-context/):對於PASCAL-VOC 2010識別競賽的擴充套件,包含了對所有訓練影象的畫素級別的標註。共有540個類,包括原有的20個類及由PASCAL VOC分割資料集得來的圖片背景,分為三大類,分別是物體、材料以及混合物。雖然種類繁多,但是隻有59個常見類是較有意義的。由於其類別服從一個冪律分佈,其中有很多類對於整個資料集來說是非常稀疏的。就這點而言,包含這59類的子集常被選作真實類別來對該資料集進行研究,其他類別一律重標為背景。

PASCAL 部分資料集(PASCAL Part[29]http://www.stat.ucla.edu/xianjie.chen/pascalpart dataset/pascal part.html):對於PASCAL-VOC 2010識別競賽的擴充套件,超越了這次競賽的任務要求而為影象中的每個物體的部分提供了一個畫素級別的分割標註(或者當物體沒有連續的部分的時候,至少是提供了一個輪廓的標註)。原來的PASCAL-VOC中的類被保留,但被細分了,如自行車被細分為後輪、鏈輪、前輪、手把、前燈、鞍座等。本資料集包含了PASCAL VOC的所有訓練影象、驗證影象以及9637張測試影象的標籤。

語義邊界資料集(SBD[30]http://home.bharathh.info/home/sbd):是PASCAL資料集的擴充套件,提供VOC中未標註影象的語義分割標註。提供PASCAL VOC 2011 資料集中11355張資料集的標註,這些標註除了有每個物體的邊界資訊外,還有類別級別及例項級別的資訊。由於這些影象是從完整的PASCAL VOC競賽中得到的,而不僅僅是其中的分割資料集,故訓練集與驗證集的劃分是不同的。實際上,SBD有著其獨特的訓練集與驗證集的劃分方式,即訓練集8498張,驗證集2857張。由於其訓練資料的增多,深度學習實踐中常常用SBD資料集來取代PASCAL VOC資料集。

微軟常見物體環境資料集(Microsoft COCO [31](http://mscoco.org/)是另一個大規模的影象識別、分割、標註資料集。它可以用於多種競賽,與本領域最相關的是檢測部分,因為其一部分是致力於解決分割問題的。該競賽包含了超過80個類別,提供了超過82783張訓練圖片,40504張驗證圖片,以及超過80000張測試圖片。特別地,其測試集分為4個不同的子集各20000張:test-dev是用於額外的驗證及除錯,test-standard是預設的測試資料,用來與其他最優的方法進行對比,test-challenge是競賽專用,提交到評估伺服器上得出評估結果,test-reserve用於避免競賽過程中的過擬合現象(當一個方法有嫌疑提交過多次或者有嫌疑使用測試資料訓練時,其在該部分子集上的測試結果將會被拿來作比較)。由於其規模巨大,目前已非常常用,對領域發展很重要。實際上,該競賽的結果每年都會在ECCV的研討會上與ImageNet資料集的結果一起公佈。

影象與註釋合成數據集(SYNTHIA[32]http://synthia-dataset.net/)是一個大規模的虛擬城市的真實感渲染圖資料集,帶有語義分割資訊,是為了在自動駕駛或城市場景規劃等研究領域中的場景理解而提出的。提供了11個類別物體(分別為空、天空、建築、道路、人行道、柵欄、植被、杆、車、訊號標誌、行人、騎自行車的人)細粒度的畫素級別的標註。包含從渲染的視訊流中提取出的13407張訓練影象,該資料集也以其多變性而著稱,包括場景(城鎮、城市、高速公路等)、物體、季節、天氣等。

城市風光資料集 [33]https://www.cityscapes-dataset.com/)是一個大規模的關注於城市街道場景理解的資料集,提供了830個類別的語義級別、例項級別以及密集畫素標註(包括平坦表面、人、車輛、建築、物體、自然、天空、空)。該資料集包括約5000張精細標註的圖片,20000張粗略標註的圖片。資料是從50個城市中持續數月採集而來,涵蓋不同的時間以及好的天氣情況。開始起以視訊形式儲存,因此該資料集按照以下特點手動選出視訊的幀:大量的動態物體,變化的場景佈局以及變化的背景。

CamVid資料集 [55,34]http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/)是一個道路、駕駛場景理解資料集,開始是五個視訊序列,來自一個安裝在汽車儀表盤上的960x720解析度的攝相機。這些序列中取樣出了701個幀(其中4個序列在1fps處,1個序列在15fps處),這些靜態圖被手工標註上32個類別:空、建築、牆、樹、植被、柵欄、人行道、停車場、柱或杆、錐形交通標誌、橋、標誌、各種文字、訊號燈、天空、……(還有很多)。值得注意的是,Sturgess等人[35]將資料集按照367-100-233的比例分為訓練集、驗證集、測試集,這種分法使用了部分類標籤:建築、樹、天空、車輛、訊號、道路、行人、柵欄、杆、人行道、騎行者。

KITTI [56]是用於移動機器人及自動駕駛研究的最受歡迎的資料集之一,包含了由多種形式的感測器得出的數小時的交通場景資料,包括高解析度RGB、灰度立體攝像機以及三維鐳射掃描器。儘管很受歡迎,該資料集本身並沒有包含真實語義分割標註,但是,眾多的研究者手工地為該資料集的部分資料新增標註以滿足其問題的需求。Alvarez等人[36,37]為道路檢測競賽中的323張圖片生成了真實標註,包含三個類別:道路、垂直面和天空。Zhang等人[39]標註了252張圖片,其中140張訓練、112張測試,其選自追蹤競賽中的RGBVelodyne掃描資料,共十個類。Ros等人[38]在視覺測距資料集中標註了170個訓練圖片和46個測試圖片,共11個類。

YouTube物體資料集 [57]是從YouTube上採集的視訊資料集,包含有PASCAL VOC中的10個類。該資料集不包含畫素級別的標註,但是Jain等人[42]手動的標註了其126個序列的子集。其在這些序列中每10個幀選取一張圖片生成器語義標籤,總共10167張標註的幀,每幀480x360的解析度。

Adobe肖像分割資料集 [26]http://xiaoyongshen.me/webpageportrait/index.html包含從Flickr中收集的800x600的肖像照片,主要是來自手機前置攝像頭。該資料集包含1500張訓練圖片和300張預留的測試圖片,這些圖片均完全被二值化標註為人或背景。圖片被半自動化的標註:首先在每幅圖片上執行一個人臉檢測器,將圖片變為600x800的解析度,然後,使用Photoshop快速選擇工具將人臉手工標註。這個資料集意義重大,因為其專門適用於人臉前景的分割問題。

上下文語料資料集(MINC[43]是用於對塊進行分類以及對整個場景進行分割的資料集。該資料集提供了23個類的分割標註(文中有詳細的各個類別的名稱),包含7061張標註了的分割圖片作為訓練集,5000張的測試集和2500張的驗證集。這些圖片均來自OpenSurfaces資料集[58],同時使用其他來源如FlickrHouzz進行增強。因此,該資料集中的影象的解析度是變化的,平均來看,圖片的解析度一般是800x500500x800

密集標註的視訊分割資料集(DAVIS[44,45]http://davischallenge.org/index.html):該競賽的目標是視訊中的物體的分割,這個資料集由50個高清晰度的序列組成,選出4219幀用於訓練,2023張用於驗證。序列中的幀的解析度是變化的,但是均被降取樣為480p的。給出了四個不同類別的畫素級別的標註,分別是人、動物、車輛、物體。該資料集的另一個特點是每個序列均有至少一個目標前景物體。另外,該資料集特意地較少不同的大動作物體的數量。對於那些確實有多個前景物體的場景,該資料集為每個物體提供了單獨的真實標註,以此來支援例項分割。

斯坦福背景資料集[40]http://dags.stanford.edu/data/iccv09Data.tar.gz)包含了從現有公開資料集中採集的戶外場景圖片,包括LabelMe, MSRC, PASCAL VOC Geometric Context。該資料集有715張圖片(320x240解析度),至少包含一個前景物體,且有影象的水平位置資訊。該資料集被以畫素級別標註(水平位置、畫素語義分類、畫素幾何分類以及影象區域),用來評估場景語義理解方法。

SiftFlow [41]:包含2688張完全標註的影象,是LabelMe資料集[59]的子集。多數影象基於8種不同的戶外場景,包括街道、高山、田地、沙灘、建築等。影象是256x256的,分別屬於33個語義類別。未標註的或者標為其他語義類別的畫素被認為是空。

3.2  2.5維資料集

隨著廉價的掃描器的到來,帶有深度資訊的資料集開始出現並被廣泛使用。本章,我們回顧最知名的2.5維資料集,其中包含了深度資訊。

NYUDv2資料集[46]http://cs.nyu.edu/silberman/projects/indoorscene seg sup.html)包含1449張由微軟Kinect裝置捕獲的室內的RGB-D影象。其給出密集的畫素級別的標註(類別級別和實力級別的均有),訓練集795張與測試集654張均有40個室內物體的類[60],該資料集由於其刻畫室內場景而格外重要,使得它可以用於某種家庭機器人的訓練任務。但是,它相對於其他資料集規模較小,限制了其在深度網路中的應用。

SUN3D資料集[47]http://sun3d.cs.princeton.edu/):與NYUDv2資料集相似,該資料集包含了一個大規模的RGB-D視訊資料集,包含8個標註了的序列。每一幀均包含場景中物體的語義分割資訊以及攝像機位態資訊。該資料集還在擴充中,將會包含415個序列,在41座建築中的254個空間中獲取。另外,某些地方將會在一天中的多個時段被重複拍攝。

SUNRGBD資料集[48]http://rgbd.cs.princeton.edu/)由四個RGB-D感測器得來,包含10000RGB-D影象,尺寸與PASCAL VOC一致。該資料集包含了NYU depth v2 [46], Berkeley B3DO [61],以及SUN3D [47]資料集中的影象,整個資料集均為密集標註,包括多邊形、帶方向的邊界框以及三維空間,適合於場景理解任務。

物體分割資料集(OSD[62]http://www.acin.tuwien.ac.at/?id=289)該資料集用來處理未知物體的分割問題,甚至是在部分遮擋的情況下進行處理。該資料集有111個例項,提供了深度資訊與顏色資訊,每張圖均進行了畫素級別的標註,以此來評估物體分割方法。但是,該資料集並沒有區分各個類,使其退化為一個二值化的資料集,包含物體與非物體兩個類。

RGB-D物體資料集[49]http://rgbd-dataset.cs.washington.edu/)該資料集由視訊序列構成,有300個常見的室內物體,分為51個類,使用WordNet hypernym-hyponym關係進行分類。該資料集使用Kinect型三維攝像機進行攝製,640x480RGB影象,深度資訊30赫茲。對每一幀,資料集提供了RGB-D及深度資訊,這其中包含了物體、位置及畫素級別的標註。另外,每個物體放在旋轉的桌面上以得出360度的視訊序列。對於驗證過程,其提供了22個標註的自然室內場景的包含物體的視訊序列。

3.3  3維資料集

純粹的三維資料集是稀缺的,通常可以提供CAD網格或者其他的體元表示如點雲等。為分割問題獲取三維資料集是困難的,因此很少有深度學習方法可以處理這種資料。也因此,三維資料集目前還不是很受歡迎。儘管如此,我們還是介紹目前出現的相關資料集來解決現有的問題。

ShapeNet部分資料集[50]http://cs.stanford.edu/ericyi/project page/part annotation/)是ShapeNet[63]資料集的子集,關注於細粒度的三維物體分割。包含取自元資料及16個類的31693個網格,每個形狀類被標註為二到五個部分,整個資料集共有50個物體部分,也就是說,物體的每個部分比如飛機的機翼、機身、機尾、發動機等都被標註了。真實標註按照被網格分割開的點呈現。

斯坦福2D-3D-S資料集[51]http://buildingparser.stanford.edu)是一個多模態、大規模室內空間資料集,是斯坦福三維語義分析工作[64]的擴充套件。