斯坦福等機構提出ScanComplete,可實現3D掃描的大規模「場景完成」和「語義分割」
原文來源:arxiv
作者:Angela Dai、Daniel Ritchie、Martin Bokeloh、Scott Reed、Jurgen Sturm、Matthias Nießner
「雷克世界」編譯:嗯~阿童木呀、KABUDA
在這裡,我們向大家介紹一下ScanComplete,它是一種全新的資料驅動方法,用於將場景的不完整3D掃描作為輸入,然後預測一個完整的3D模型以及每個體素語義標籤。我們方法的主要貢獻在於,它能夠處理具有不同空間範圍的大場景,並且隨著場景大小的增加,所管理的資料大小也呈立方級增長。為此,我們設計了完全卷積生成式3D CNN模型,其過濾核心相對於整體場景大小來說具有不變性。該模型可以在場景子卷(scene subvolumes)上進行訓練,但是在測試期間內能夠部署在任意大的場景中。此外,我們提出了一個粗到精(coarse-to-fine)的推理策略,以能夠產生高解析度的輸出,同時還能夠利用大的輸入上下文大小。在一系列廣泛的實驗中,我們仔細評估了不同的模型設計選擇,考慮了完成和語義推理的確定性和概率性模型。我們的研究結果表明,我們不僅在處理環境的大小和處理效率方面優於其他方法,而且在完成質量和語義分割效能方面也有十分顯著的優勢。
室內環境的3D掃描受感測器遮擋的影響,使得3D重構具有高度不完整的3D幾何形狀(左)。我們提出了一種基於完全卷積神經網路的新型資料驅動方法,該方法將不完整的符號距離函式(SDF)轉換為完全的網路,以達到前所未有的空間範圍(中)。除了場景完成之外,我們的方法還會為之前缺少幾何形狀的情況下推理語義類標籤(右圖)。我們的方法在完成和語義標註精確度方面都要優於現有方法。
隨著微軟Kinect、英特爾RealSense和谷歌Tango等商用RGB-D感測器的廣泛應用,室內空間的3D重構已經取得了巨大的成功。3D重構可以幫助建立圖形應用程式的內容,虛擬和增強現實應用程式依靠於從周圍環境獲取高質量的3D模型。雖然在追蹤大空間掃描的精確度和高效資料結構方面已經取得了重大進展,但所得到的重構3D模型在質量方面仍然有不盡人意的地方。
在質量方面,一個基本的侷限性是,一般來說,對於一個給定的場景,我們只能獲得其區域性和不完全重構,因為掃描會遭受遮擋和距離感測器的物理限制。在實踐中,即使經過人類專家的仔細掃描,在重構過程中掃描一個沒有孔的房間也幾乎是不可能的。長期以來,孔在審美上都是不怎麼令人愉悅的,並且可能導致後期處理(諸如3D列印或場景編輯)過程中的嚴重問題,因為我們不確定掃描的某些區域是代表自由空間還是佔用空間。而諸如拉普拉斯孔填充(Laplacian hole filling、或泊松曲面重構(Poisson Surface reconstruction)這樣的傳統的方法可以填充小孔。然而,完成高水平的場景幾何形狀,比如缺少牆壁或椅子腿,則更加具有挑戰性。
我們的方法概述:我們提出了一個層級粗到精的方法,其中每個級別都採用區域性3D掃描作為輸入,並且使用我們的自迴歸3D CNN架構中,預測完成的掃描以及在相應級別的體素解析度下預測每個體素語義標籤。下一個層次結構將先前層次(完成和語義)的輸出作為輸入,然後可以細化結果。這個過程允許在一個較高的區域性體素解析度的情況下利用大的空間上下文。在最終的結果中,我們看到全域性完成,以及區域性表面細節和高解析度語義標籤。
解決這個問題的一個很有前景的研究方向是使用機器學習。近期,用於3D完成,以及涉及單個目標或深度框架的其他生成任務的深度學習方法顯示出了很好的效果。然而,3D生成式建模和結構化輸出預測仍然具有挑戰性。當用體積網格表示時,資料的大小會伴隨空間大小的增加呈立方級增長,這嚴重限制了解析度。室內場景尤其具有挑戰性,因為它們不僅大,而且形狀不規則,並且還具有不同的空間範圍。
在本文中,我們提出了一種新方法—ScanComplete,它可以在大的3D環境下操作,而不受空間範圍的限制。我們利用完全卷積神經網路,可以在較小的子捲上進行訓練,但在測試時應當用於任意大小的環境場景。這種功能可以高效地應用於處理大規模室內場景的3D掃描:我們展示了高達1480×1230×64畫素(≈70×60×3m)的例子。我們關注的重點為場景完成和語義推理的任務:對於給定的部分輸入掃描,我們推理缺失的幾何形狀,並預測基於每個體素的語義標籤。為了獲得高質量的輸出,模型必須使用足夠高的解析度來預測精細的尺度細節。然而,它還必須使用足夠大的上下文來識別大型結構,以保證整體的一致性。為了協調這些相互矛盾的問題,我們提出了一個從粗到精(coarse-to-fine)的策略,該模型預測了一個多解析度的輸出層次結構。第一層次級別在解析度低但空間大的環境中預測場景幾何形狀和語義。以下層級使用的空間環境更小,但解析度更高,並且每一層級都將前一層級的輸出作為輸入以充分利用全域性上下文。
在我們的評估中,我們在一個前所未有的空間內展示了場景完成和語義標註。此外,我們證實可以在合成數據上訓練我們的模型,並將其轉換為從商品掃描裝置中獲取的真正的RGB-D掃描。我們的結果優於現有的合成方法,並獲得了具有更高準精確度的語義體素標籤。
總體而言,我們的貢獻有以下幾點:
•用於處理具有任意空間範圍的3D場景的3D完全卷積完成網路(3D fully-convolutional completion networks)。
•由粗到精(coarse-to-fine)的完成策略,既捕捉區域性細節,又捕捉全域性結構。
•場景完成和語義標註,二者都以顯著的優勢強於現有方法。
在本文中,我們提出了ScanComplete,這是一種全新的資料驅動方法,它可以輸入部分3D掃描,同時為整個場景,預測完整的幾何形狀和語義體素標籤。其關鍵思想是使用一個完全卷積的網路來解耦訓練和測試解析度,從而具有無限空間範圍的可變大小的測試場景。另外,我們使用了一個粗到精(coarse-to-fine)預測策略和一個體積自迴歸網路(volumetric autoregressive network),這個網路利用了大的空間上下文,同時預測了局部的細節。因此,我們實現了前所未有的場景完成結果,並且體積語義分割的精確度明顯高於以往的水平。
SUNCG上的語義體素標註結果; 從左至右:輸入、SSCNet、ScanNet、我們的模型、地面實況。
來自Scannet對真實世界的掃描合成結果。儘管我們的模型只在合成數據上進行了訓練,但它也能夠完成許多真實資料的缺失區域。
我們的研究只是從部分輸入中獲取高質量3D掃描的一個起點,這是RGB-D重構的一個典型議題。今後研究的一個重要方向是進一步提高輸出的解析度。目前,我們最終的輸出解析度約5cm3的體素,這還不夠,理想情況下,我們會使用更高的解析度來處理精細的物體,例如杯子。此外,我們相信,通過正確的聯合優化策略,跨層級端到端訓練的效果將得到進一步提高。儘管如此,我們仍相信我們已經為完成整個場景設定了一個重要的基準線。我們希望,社會各界都能夠進一步參與到這項令人振奮的工作中來,並且,我們相信,在這方面我們會有更多進展。
歡迎個人分享,媒體轉載請後臺回覆「轉載」獲得授權,微信搜尋「BOBO_AI」關注公眾號
中國人工智慧產業創新聯盟於2017年6月21日成立,超200家成員共推AI發展,相關動態:
點選下圖加入聯盟
關注“雷克世界”後不要忘記置頂喲
我們還在搜狐新聞、雷克世界官網、騰訊新聞、網易新聞、一點資訊、天天快報、今日頭條、雪球財經……
↓↓↓點選閱讀原文檢視中國人工智慧產業創新聯盟手冊