PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space
摘要
很少有先前的工作研究點集的深度學習。 PointNet[20]是這個方向的先驅。然而,根據設計,PointNet並沒有捕捉到由點所處的度量空間引起的區域性結構,限制了其識別細粒度模式的能力和對複雜場景的通用性。在這項工作中,我們引入了一個分層神經網路,在輸入點集的巢狀分割槽上遞迴地應用PointNet。通過利用度量空間距離,我們的網路能夠學習具有不斷增加的上下文尺度的區域性特徵。隨著進一步觀察到點集通常以變化的密度取樣,這導致在均勻密度上訓練的網路的效能大大降低,我們提出了新的集合學習層來自適應地組合來自多個尺度的特徵。實驗表明,我們的網路PointNet++能夠高效、魯棒地學習深度點集特徵。特別是,在具有挑戰性的3D點雲基準測試中,已經獲得了明顯優於最先進水平的結果。
1 介紹
我們對分析幾何點集感興趣,這些點集是歐幾里得空間中點的集合。一種特別重要的幾何點集型別是由3D掃描器捕獲的點雲,例如,來自適當配備的自動駕駛汽車。作為一個集合,這些資料必須對其成員的排列保持不變。此外,距離度量定義了可能表現出不同屬性的區域性鄰域。例如,點的密度和其他屬性在不同位置可能不均勻——在3D掃描中,密度變化可能來自透視效果、徑向密度變化、運動等。
很少有先前的工作研究點集的深度學習。PointNet[20]是直接處理點集的開創性工作。PointNet的基本思想是學習每個點的空間編碼,然後將所有單獨的點要素聚合為一個全域性點雲特徵。按照它的設計,PointNet不會捕獲由度量引起的區域性結構。然而,事實證明,利用區域性結構對於卷積架構的成功很重要。CNN將規則網格上定義的資料作為輸入,能夠沿著多解析度層次結構以越來越大的比例逐步捕捉特徵。在較低水平,神經元的感受野較小,而在較高水平,神經元的感受野較大。沿層次結構抽象區域性模式的能力可以更好地推廣到未見過的情況。
我們引入了一個名為PointNet++的分層神經網路,以分層方式處理在度量空間中取樣的一組點。PointNet++的總體思路很簡單。我們首先通過underlying space的距離度量將點集劃分為重疊的區域性區域。類似於CNN,我們從小鄰域中提取捕捉精細幾何結構的區域性特徵;與CNN類似,我們從小鄰域中提取捕獲精細幾何結構的區域性特徵;這些區域性特徵被進一步分組為更大的單元並進行處理以產生更高級別的特徵。重複這個過程,直到我們獲得整個點集的特徵。PointNet++的設計必須解決兩個問題:如何產生點集的分割槽,以及如何通過區域性特徵學習器抽象出點集或區域性特徵。這兩個問題是相關的,因為點集的分割槽必須產生跨分割槽的公共結構,以便可以共享區域性特徵學習器的權重,就像在卷積設定中一樣。我們選擇區域性特徵學習器作為PointNet。正如該工作中所展示的,PointNet是一種有效的架構,可以處理一組無序的點來進行語義特徵提取。此外,這種體系結構對輸入資料損壞具有很強的魯棒性。作為基本構建塊,PointNet將區域性點或特徵集抽象為更高級別的表示。從這個角度來看,PointNet++遞迴地將PointNet應用於輸入集的巢狀分割槽。
仍然存在的一個問題是如何生成點集的重疊分割槽。每個分割槽被定義為底層歐幾里得空間中的一個鄰域球,其引數包括質心位置和尺度。為了均勻地覆蓋整個集合,通過最遠點取樣(FPS)演算法在輸入點集合中選擇質心。與以固定步幅掃描空間的體積CNN相比,我們的區域性感受野依賴於輸入資料和度量,因此更有效率。
然而,由於特徵尺度的糾纏性和輸入點集的非均勻性,確定合適的區域性鄰域球的尺度是一個更具挑戰性但更有趣的問題。我們假設輸入點集在不同區域可能具有可變密度,這在結構感測器掃描等實際資料中很常見[18](見圖1)。因此,我們的輸入點集與 CNN 輸入非常不同,CNN 輸入可以看作是在具有均勻恆定密度的規則網格上定義的資料。在CNN中,與區域性分割槽規模相對應的是核心的大小。[25]表明使用較小的核心有助於提高CNN的能力。然而,我們對點集資料的實驗為這一規則提供了相反的證據。由於取樣不足,小鄰域可能由太少的點組成,這可能不足以允許PointNets穩健地捕獲模式。
圖1:從結構感測器捕獲的掃描視覺化(左:RGB;右:點雲
我們論文的一個重要貢獻是PointNet++在多個尺度上利用鄰域來實現魯棒性和細節捕捉。在訓練期間,在隨機輸入dropout的輔助下,該網路學會了自適應加權在不同尺度上檢測到的模式,並根據輸入資料結合多尺度特徵。實驗表明,我們的PointNet++能夠高效、穩定地處理點集。特別是,在具有挑戰性的3D點雲基準測試中,獲得了明顯優於最先進水平的結果。
2 問題陳述
假設\(\mathcal{X}=(M, d)\)是一個離散的度量空間,它的度量是從歐幾里得空間\(\mathbb{R}^{n}\)繼承而來的,其中\(M \subseteq \mathbb{R}^{n}\)是點集,\(d\)是距離度量。此外,周圍歐幾里得空間中\(M\)的密度可能並非處處均勻。我們對學習集合函式\(f\)感興趣,集合函式\(f\)將\(\mathcal{X}\)作為輸入(以及每個點的附加特徵),併產生對\(\mathcal{X}\)進行重新分級的語義資訊。在實踐中,這樣的\(f\)可以是為\(\mathcal{X}\)分配標籤的分類函式,也可以是為\(M\)的每個成員分配每個點標籤的分割函式。
3 方法
我們的工作可以看作是PointNet[20]的擴充套件,增加了層次結構。我們首先回顧PointNet(第3.1節),然後介紹具有層次結構的PointNet的基本擴充套件(第3.2節)。最後,我們提出了我們的 PointNet++,即使在非均勻取樣的點集中也能穩健地學習特徵(第3.3節)。
3.1 PointNet[20]的回顧。一個通用的連續集函式近似器
給定一個具有\(x_{i} \in \mathbb{R}^{d}\)的無序點集\(\left\{x_{1}, x_{2}, \ldots, x_{n}\right\}\),可以定義一個集合函式\(f: \mathcal{X} \rightarrow \mathbb{R}\)將一組點對映到一個向量:
\[f\left(x_{1}, x_{2}, \ldots, x_{n}\right)=\gamma\left(\underset{i=1, \ldots, n}{\operatorname{MAX}}\left\{h\left(x_{i}\right)\right\}\right) \quad\quad \quad\quad(1) \]其中\(γ\)和\(h\)通常是多層感知器 (MLP) 網路。
公式(1)中的集合函式\(f\)對輸入點排列是不變的,並且可以任意近似任何連續集合函式[20]。請注意,\(h\)的響應可以解釋為一個點的空間編碼(詳見[20])。
PointNet在一些基準測試中取得了令人印象深刻的表現。然而,它缺乏捕捉不同尺度的區域性環境的能力。我們將在下一節介紹分層特徵學習框架來解決這個限制。
圖2:以2D歐幾里得空間中的點為例,說明我們的分層特徵學習架構及其在集合分割和分類中的應用。單尺度點分組在這裡視覺化。有關密度自適應分組的詳細資訊,請參見圖3
3.2 分層點集特徵學習
雖然PointNet使用單個最大池化操作來聚合整個點集,但我們的新架構構建了點的分層分組,並沿層次逐步抽象出越來越大的區域性區域。我們的層次結構由許多集合的抽象級別組成(圖2)。在每個級別,一組點被處理和抽象,以產生一個具有更少元素的新集合。集合抽象層由三個關鍵層組成:Sampling層、Grouping層和PointNet層。Sampling層從輸入點中選擇一組點,這些點定義了局部區域的質心。然後,Grouping層通過在質心周圍尋找“相鄰”點來構造區域性區域集。PointNet層使用mini-PointNet將區域性區域模式編碼為特徵向量。
一組抽象級別將\(N × (d + C)\)矩陣作為輸入,該矩陣來自具有\(d-dim\)座標和\(C-dim\)點特徵的\(N\)個點。它輸出\(N^{\prime}\)個子取樣點的\(N^{\prime} \times\left(d+C^{\prime}\right)\)矩陣,該矩陣具有\(d-dim\)座標和概括區域性上下文的新\(C^{\prime}-\operatorname{dim}\)特徵向量。我們將在以下段落中介紹一組抽象級別的層。
Sampling層 給定輸入點\(\left\{x_{1}, x_{2}, \ldots, x_{n}\right\}\),我們使用迭代最遠點取樣 (FPS) 來選擇點\(\left\{x_{i_{1}}, x_{i_{2}}, \ldots, x_{i_{m}}\right\}\)的子集,使得 xij 是最遠點(以度量距離)從集合 {xi1, xi2, ..., xij−1} 關於其餘點。使得\(x_{i_{j}}\)是與集合\(\left\{x_{i_{1}}, x_{i_{2}}, \ldots, x_{i_{j-1}}\right\}\)相對於其餘點最遠的點(以度量距離計)。與隨機抽樣相比,在相同數量的質心的情況下,它對整個點集的覆蓋率更高。與掃描與資料分佈無關的向量空間的 CNN 相比,我們的取樣策略以資料相關的方式生成感受野。
Grouping層 該層的輸入是一個大小為\(N × (d + C)\)的點集和一組大小為\(N^{\prime} \times d\)的質心的座標。輸出是大小為\(N^{\prime} \times K \times(d+C)\)的點集組,其中每個組對應於一個區域性區域,\(K\)是質心點附近的點數。請注意,K因組而異,但隨後的PointNet層能夠將靈活數量的點轉換為固定長度的區域性區域特徵向量。在卷積神經網路中,畫素的區域性區域由陣列索引在畫素的某個曼哈頓距離(核心大小)內的畫素組成。在從度量空間取樣的點集中,點的鄰域由度量距離定義。
Ball query查詢查詢點半徑範圍內的所有點(實現時設定上限為\(K\))。另一種範圍查詢是\(K\)最近鄰 (kNN) 搜尋,它找到固定數量的相鄰點。與kNN相比,ball query的區域性鄰域保證了固定的區域尺度,從而使區域性區域特徵在空間上更具泛化性,這對於需要區域性模式識別的任務(例如語義點標記)是首選。
PointNet層 在這一層中,輸入是\(N^{\prime}\)個點的區域性區域,資料大小為\(N^{\prime} \times K \times(d+C)\)。輸出中的每個區域性區域都由其質心和編碼質心鄰域的區域性特徵抽象。輸出資料大小為\(N^{\prime} \times\left(d+C^{\prime}\right)\)。
區域性區域中的點的座標首先被轉換到相對於質心點的區域性座標系中:\(x_{i}^{(j)}=x_{i}^{(j)}-\hat{x}^{(j)}\)用於\(i=1,2, \ldots, K\)和\(j=1,2, \ldots, d\),其中\(\hat{x}\)是質心的座標。我們使用Sec.3.1中描述的PointNet[20]作為區域性模式學習的基本構建塊。通過使用相對座標和點特徵,我們可以捕獲區域性區域中的點對點關係。
3.3 非均勻取樣密度下的魯棒特徵學習
如前所述,點集在不同區域具有不均勻的密度是很常見的。這種不均勻性給點集特徵學習帶來了重大挑戰。在密集資料中學習的特徵可能無法推廣到稀疏取樣的區域。因此,為稀疏點雲訓練的模型可能無法識別細粒度的區域性結構。
理想情況下,我們希望儘可能仔細地檢查點集,以捕獲密集取樣區域中最精細的細節。然而,在低密度區域禁止這種近距離檢查,因為區域性模式可能會因抽樣不足而受到破壞。在這種情況下,我們應該在更近的地方尋找更大規模的模式。為了實現這一目標,我們提出了密度自適應PointNet層(圖3),當輸入取樣密度發生變化時,它學習組合來自不同尺度區域的特徵。我們將具有密度自適應PointNet層的分層網路稱為PointNet++。
之前在第3.2節中,每個抽象層次都包含單個尺度的分組和特徵提取。在PointNet++中,每個抽象層次提取多個尺度的區域性模式,並根據區域性點密度進行智慧組合。在對區域性區域進行分組和組合不同尺度的特徵方面,我們提出了兩種型別的密度自適應層,如下所示。
圖3:(a)多尺度分組(MSG);(b) 多解析度分組(MRG)。
多尺度分組(MSG) 如圖3(a)所示,捕獲多尺度模式的一種簡單但有效的方法是應用具有不同尺度的分組層,然後根據PointNets提取每個尺度的特徵。將不同尺度的特徵串聯起來形成多尺度特徵。
我們訓練網路學習優化策略以結合多尺度特徵。這是通過隨機丟棄每個例項的隨機概率的輸入點來完成的,我們稱之為random input dropout。具體來說,對於每個訓練點集,我們選擇從\([0,p]\)均勻取樣的丟失率\(\theta\),其中\(p ≤ 1\)。對於每個點,我們隨機丟棄一個概率為\(\theta\)的點。實際上,我們設定\(p = 0.95\),以避免產生空點集。在這樣做的過程中,我們為網路提供了各種稀疏度(由\(\theta\)引起)和變化均勻性(由dropout的隨機性引起)的訓練集。在測試期間,我們保留所有可用的點。
多解析度分組(MRG) 上面的MSG方法計算量很大,因為它在每個質心點的大規模鄰域上執行區域性PointNet。特別地,由於質心點的數量通常在最低層相當大,所以時間成本很大。在這裡,我們提出了一種替代方法,可以避免這種昂貴的計算,但仍然保留根據點的分佈特性自適應聚合資訊的能力。在圖3(b)中,在某個級別\(L_{i}\)的區域的特徵是兩個向量的連線。一個向量(圖中左側)是通過使用集合抽象級別從較低級別\(L_{i-1}\)彙總每個子區域的特徵而獲得的。另一個向量(右)是使用單個PointNet直接處理區域性區域中的所有原始點獲得的特徵。當局部區域的密度較低時,第一個向量可能不如第二個向量可靠,因為計算第一個向量的子區域包含更稀疏的點並且更容易受到取樣不足的影響。在這種情況下,第二個向量的權重應該更高。另一方面,當局部區域的密度很高時,第一個向量提供更精細的資訊,因為它具有在較低級別遞迴地檢查更高解析度的能力。
與MSG相比,該方法的計算效率更高,因為我們避免了在最低級別的大規模鄰域中進行特徵提取。
3.4 用於集合分割的點特徵傳播
在集合抽象層,對原始點集進行二次取樣。然而,在語義點標註等集合分割任務中,我們希望獲得所有原始點的點特徵。一種解決方案是總是在所有集合抽象層中取樣所有點作為質心,然而這導致高計算成本。另一種方法是將特徵從二次取樣點傳播到原始點。
我們採用基於距離的插值和跨級跳躍連結的分層傳播策略(如圖2所示)。在特徵傳播級別中,我們將點特徵從\(N_{l} \times(d+C)\)點傳播到\(N_{l-1}\)點,其中\(N_{l-1}\)和\(N_{l}\)(\(N_{l} \leq N_{l-1}\))是集合抽象級別\(l\)的輸入和輸出的點集大小。我們通過在\(N_{l-1}\)點的座標處內插\(N_{l}\)點的特徵值\(f\)來實現特徵傳播。在插值的多種選擇中,我們使用基於\(k\)個最近鄰的反距離加權平均(如公式(2),預設情況下我們使用\(p = 2,k = 3\))。然後,\(N_{l-1}\)點上的插值要素與集合抽象級別中的跳躍連結點要素連線在一起。然後連線的特徵通過一個”unit pointnet“,類似於CNN中的一對一卷積。應用一些共享的全連線層和ReLU層來更新每個點的特徵向量。重複該過程,直到我們將特徵傳播到原始點集。
\[f^{(j)}(x)=\frac{\sum_{i=1}^{k} w_{i}(x) f_{i}^{(j)}}{\sum_{i=1}^{k} w_{i}(x)} \quad \text { 其中 } \quad w_{i}(x)=\frac{1}{d\left(x, x_{i}\right)^{p}}, j=1, \ldots, C \quad\quad \quad\quad(2) \]4 實驗
資料集 我們評估了四個資料集,從2D目標(MNIST[11])、3D目標(ModelNet40[31]剛體目標、SHREC15 [12]非剛體目標)到真實的3D場景(ScanNet[5])。目標分類通過準確性進行評估。語義場景標記通過[5]之後的平均體素分類精度進行評估。我們在下面列出了每個資料集的實驗設定:
- MNIST:具有60k訓練和10k測試樣本的手寫數字影象。
- ModelNet40:40個類別的CAD模型(大部分是人造的)。我們使用官方拆分,其中9,843個形狀用於訓練,2,468 個用於測試。
- SHREC15:來自50個類別的1200個形狀。每個類別包含24個形狀,其中大部分是具有各種姿勢的有機形狀,如馬、貓等。我們使用五重交叉驗證來獲得該資料集上的分類準確性。
- ScanNet: 1513掃描重建的室內場景。我們遵循[5]中的實驗設定,使用1201個場景進行訓練,312個場景進行測試。
4.1 歐氏度量空間中的點集分類
我們在分類從2D(MNIST)和3D(ModlNet40)歐式空間取樣的點雲上評估我們的網路。MNIST影象被轉換成數字畫素位置的2D點雲。3D點雲是從ModelNet40形狀的網格曲面中取樣的。預設情況下,我們為MNIST使用512個點,為ModelNet40使用1024個點。在表2的最後一行(我們的法線),我們使用面法線作為額外的點特徵,這裡我們也使用更多的點(N = 5000)來進一步提高效能。所有的點集都被標準化為零均值,並且在一個單位球內。我們使用一個具有三個完全連線層的三級分層網路。(有關網路架構和實驗準備的更多詳細資訊,請參見附錄。)
結果 在表1和表2中,我們將我們的方法與一組具有代表性的現有技術進行比較。請注意,表2中的PointNet(vanilla)是[20]中不使用轉換網路的版本,相當於我們只有一層的分層網路。
首先,我們的分層學習架構比非分層PointNet[20]實現了顯著更好的效能。在MNIST中,我們看到從PointNet(vanilla)和PointNet到我們的方法,錯誤率相對減少了60.8%和34.6%。在ModelNet40分類中,我們還看到使用相同的輸入資料大小(1024 個點)和特徵(僅座標),我們的比PointNet強得多。其次,我們觀察到基於點集的方法甚至可以實現與成熟影象CNN更好或相似的效能。在 MNIST 中,我們的方法(基於 2D 點集)實現了接近Network in Network CNN的精度。在ModelNet40中,我們的正常資訊顯著優於之前最先進的方法MVCNN[26]。
對取樣密度變化的魯棒性 直接從現實世界中捕獲的感測器資料通常存在嚴重的不規則取樣問題(圖1)。我們的方法選擇多個尺度的點鄰域,並通過適當加權來學習平衡描述性和魯棒性。
圖4:左:random point dropout的點雲。右圖:曲線顯示了我們的密度自適應策略在處理不均勻密度方面的優勢。DP表示訓練過程中的隨機輸入丟失;否則訓練是在均勻密集的點上進行的。詳見第3.3節。
我們在測試期間隨機丟棄點(見左圖4 ),以驗證我們的網路對不均勻和稀疏資料的魯棒性。在圖4右側,我們看到MSG+DP(訓練期間隨機輸入丟失的多尺度分組)和MRG+DP(訓練期間隨機輸入丟失(random input dropout)的多解析度分組)對取樣密度變化非常魯棒。從1024到256個測試點,MSG+DP效能下降不到1%。此外,與替代方案相比,它在幾乎所有采樣密度上都實現了最佳效能。PointNet vanilla[20]在密度變化下相當健壯,因為它關注全域性抽象而不是細節。然而,與我們的方法相比,細節的損失也使得它不那麼強大。SSG(在每個級別中具有單尺度分組的消融PointNet++)無法推廣到稀疏取樣密度,而SSG+DP通過在訓練時間隨機丟棄點來修正問題。
4.2 語義場景標註的點集分割
為了驗證我們的方法適用於大規模點雲分析,我們還評估了語義場景標記任務。目標是預測室內掃描點的語義目標標籤。[5] 在體素化掃描上使用全卷積神經網路提供了baseline。它們完全依賴於掃描幾何結構而不是RGB資訊,並在每個體素的基礎上報告精度。為了進行公平的比較,我們在所有實驗中移除了RGB資訊,並按照[5]將點雲標籤預測轉換為體素標籤。我們還與[20]進行了比較。在圖5(藍條)中,在每個體素的基礎上報告了精度。
圖5: Scannet標籤精度。
我們的方法遠遠優於所有的baseline方法。與[5]相比,我們直接在點雲上學習,以避免額外的量化誤差,並進行與資料相關的取樣,以實現更有效的學習。與[20]相比,我們的方法引入了分層特徵學習,並捕獲了不同尺度下的幾何特徵。這對於理解多個級別的場景和標記不同大小的目標非常重要。我們將示例場景標記結果顯示在圖6中。
圖6:Scannet標籤結果。[20]正確捕捉房間的整體佈局,但未能發現傢俱。相比之下,我們的方法在分割房間佈局之外的目標方面要好得多。
對取樣密度變化的魯棒性 為了測試我們訓練的模型如何在取樣密度不均勻的掃描中執行,我們合成了類似於圖1中的Scannet場景的虛擬掃描,並根據這些資料評估我們的網路。我們向讀者推薦有關我們如何生成虛擬掃描的補充材料。我們在三種設定(SSG、MSG+DP、MRG+DP)中評估我們的框架,並與baseline方法進行比較[20]。
效能比較如圖5所示(黃色條)。我們看到,由於取樣密度從均勻點雲轉移到虛擬掃描場景,SSG效能大大下降。另一方面,MRG網路對取樣密度變化更加穩健,因為它能夠在取樣稀疏時自動切換到描繪更粗粒度的特徵。即使在訓練資料(具有隨機丟失的均勻點)和具有非均勻密度的掃描資料之間存在差距,我們的MSG網路也僅受到輕微影響,並且在比較中實現了方法中的最佳精度。這些證明了我們的密度自適應層設計的有效性。
4.3 非歐式度量空間中的點集分類
在這一節中,我們展示了我們的方法對非歐式空間的推廣。在非剛體形狀分類中(圖7),一個好的分類器應該能夠正確地將圖7中的(a)和(c)分類為相同的類別,即使給定它們在姿態上的差異,這需要內在結構的知識。SHREC15中的形狀是嵌入在3D間中的2D表面。沿表面的測地線距離自然會產生一個度量空間。我們通過實驗表明,在這種度量空間中採用PointNet++是一種捕捉底層(underlying)點集內在結構的有效方法。
圖7:非剛體形狀分類的一個例子。
對於[12]中的每個形狀,我們首先構造由成對測地距離產生的度量空間。我們按照[23]獲得模擬測地線距離的嵌入度量。接下來,我們提取該度量空間中的固有點特徵,包括WKS[1]、HKS[27]和多尺度高斯曲率[16]。我們使用這些特徵作為輸入,然後根據底層(underlying)度量空間對點進行取樣和分組。通過這種方式,我們的網路學會了捕捉不受形狀的特定姿勢影響的多尺度內在結構。替代設計選擇包括使用\(XYZ\)座標作為點特徵,或者使用歐式空間\(\mathbb{R}^{3}\)作為基礎度量空間。我們在下面展示這些都不是最佳選擇。
結果 我們在表3中將我們的方法與之前最先進的方法[14]進行了比較。[14]提取測地線矩作為形狀特徵,並使用堆疊稀疏自動編碼器來消化這些特徵以預測形狀類別。我們的方法使用非歐式度量空間和內在特徵,在所有設定中實現了最佳效能,並且大幅度優於[14]。
比較我們方法的第一種和第二種設定,我們看到內在特徵對於非剛體形狀分類非常重要。\(XYZ\)特徵無法揭示內在結構,並且受姿勢變化的影響很大。比較我們方法的第二和第三個設定,我們看到使用測地線鄰域比歐式鄰域更有益。歐式鄰域可能包括表面上較遠的點,並且當形狀提供非剛體變形時,該鄰域可能會顯著改變。這給有效的權重共享帶來了困難,因為區域性結構可能變得組合複雜。另一方面,曲面上的測地線鄰域則解決了這個問題,提高了學習效率。
4.4 特徵視覺化
在圖8中,我們可視化了我們的分級網路的第一級核心已經學習的內容。我們在空間中建立了一個體素網格,並聚集了網格單元中啟用某些神經元最多的區域性點集(使用了最多100個示例)。保留具有高票數的網格單元並將其轉換回3D點雲,這代表了神經元識別的模式。由於模型是在主要由傢俱組成的ModelNet40上訓練的,因此我們在視覺化中看到了平面、雙平面、線、角等結構。
圖8:從第一層核心學習的3D點雲模式。該模型針對ModelNet40形狀分類進行了訓練(隨機選擇128個核心中的20個)。顏色表示點深度(紅色表示近,藍色表示遠)。
5 相關工作
分層特徵學習的想法非常成功。在所有學習模型中,卷積神經網路[10, 25, 8]是最突出的模型之一。然而,卷積不適用於具有距離度量的無序點集,這是我們工作的重點。
一些最近的工作[20,28]研究瞭如何將深度學習應用於無序集。他們忽略了底層(underlying)的距離度量,即使點集擁有一個。結果,它們無法捕獲點的區域性上下文,並且對全域性集合轉換和標準化很敏感。在這項工作中,我們針對從度量空間中取樣的點,並通過在我們的設計中明確考慮潛在的距離度量來解決這些問題。
從度量空間取樣的點通常是嘈雜的並且具有不均勻的取樣密度。這會影響有效的點特徵提取並導致學習困難。關鍵問題之一是為點特徵設計選擇合適的尺度。以前在幾何處理社群或攝影測量和遙感社群中已經開發了幾種方法[19,17,2,6,7,30]。與所有這些工作相比,我們的方法學習以端到端的方式提取點特徵並平衡多個特徵尺度。
在3D度量空間中,除了點集之外,還有幾種流行的深度學習表示方法,包括體積網格[21,22,29]和幾何圖形[3,15,33]。然而,在這些工作中,沒有一個明確地考慮了非均勻取樣密度的問題。
結論
在這項工作中,我們提出了PointNet++這種強大的神經網路架構,用於處理度量空間中取樣的點集。PointNet++遞迴地作用於輸入點集的巢狀分割,並且在學習關於距離度量的等級特徵方面是有效的。為了處理非均勻點取樣問題,我們提出了兩個新的集合抽象層,根據區域性點密度智慧地聚集多尺度資訊。這些貢獻使我們能夠在具有挑戰性的3D點雲基準測試中實現一流的效能。
在未來,如何通過在每個區域性區域中共享更多的計算來加速我們提出的網路的推理速度是值得考慮的,特別是對於MSG和MRG層。在更高維度的度量空間中發現應用也是有趣的,其中基於CNN的方法在計算上是不可行的,而我們的方法可以很好地擴充套件。
參考文獻
[1] M. Aubry, U. Schlickewei, and D. Cremers. The wave kernel signature: A quantum mechanical approach to shape analysis. In Computer Vision Workshops (ICCV Workshops), 2011 IEEE International Conference on, pages 1626–1633. IEEE, 2011.
[2] D. Belton and D. D. Lichti. Classification and segmentation of terrestrial laser scanner point clouds using local variance information. Iaprs, Xxxvi, 5:44–49, 2006.
[3] J. Bruna, W. Zaremba, A. Szlam, and Y . LeCun. Spectral networks and locally connected networks on graphs. arXiv preprint arXiv:1312.6203, 2013.
[4] A. X. Chang, T. Funkhouser, L. Guibas, P . Hanrahan, Q. Huang, Z. Li, S. Savarese, M. Savva, S. Song, H. Su, J. Xiao, L. Yi, and F. Y u. ShapeNet: An Information-Rich 3D Model Repository. Technical Report arXiv:1512.03012 [cs.GR], 2015.
[5] A. Dai, A. X. Chang, M. Savva, M. Halber, T. Funkhouser, and M. Nießner. Scannet: Richly-annotated 3d reconstructions of indoor scenes. arXiv preprint arXiv:1702.04405, 2017.
[6] J. Demantké, C. Mallet, N. David, and B. V allet. Dimensionality based scale selection in 3d lidar point clouds. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 38(Part 5):W12, 2011.
[7] A. Gressin, C. Mallet, J. Demantké, and N. David. Towards 3d lidar point cloud registration improvement using optimal neighborhood knowledge. ISPRS journal of photogrammetry and remote sensing, 79:240– 251, 2013.
[8] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 770–778, 2016.
[9] D. Kingma and J. Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.
[10] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012.
[11] Y . LeCun, L. Bottou, Y . Bengio, and P . Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998.
[12] Z. Lian, J. Zhang, S. Choi, H. ElNaghy, J. El-Sana, T. Furuya, A. Giachetti, R. A. Guler, L. Lai, C. Li, H. Li, F. A. Limberger, R. Martin, R. U. Nakanishi, A. P . Neto, L. G. Nonato, R. Ohbuchi, K. Pevzner, D. Pickup, P . Rosin, A. Sharf, L. Sun, X. Sun, S. Tari, G. Unal, and R. C. Wilson. Non-rigid 3D Shape Retrieval. In I. Pratikakis, M. Spagnuolo, T. Theoharis, L. V . Gool, and R. V eltkamp, editors, Eurographics Workshop on 3D Object Retrieval. The Eurographics Association, 2015.
[13] M. Lin, Q. Chen, and S. Yan. Network in network. arXiv preprint arXiv:1312.4400, 2013.
[14] L. Luciano and A. B. Hamza. Deep learning with geodesic moments for 3d shape classification. Pattern Recognition Letters, 2017.
[15] J. Masci, D. Boscaini, M. Bronstein, and P . V andergheynst. Geodesic convolutional neural networks on riemannian manifolds. In Proceedings of the IEEE International Conference on Computer Vision Workshops, pages 37–45, 2015.
[16] M. Meyer, M. Desbrun, P . Schröder, A. H. Barr, et al. Discrete differential-geometry operators for triangulated 2-manifolds. Visualization and mathematics, 3(2):52–58, 2002.
[17] N. J. MITRA, A. NGUYEN, and L. GUIBAS. Estimating surface normals in noisy point cloud data. International Journal of Computational Geometry & Applications, 14(04n05):261–276, 2004.
[18] I. Occipital. Structure sensor-3d scanning, augmented reality, and more for mobile devices, 2016.
[19] M. Pauly, L. P . Kobbelt, and M. Gross. Point-based multiscale surface representation. ACM Transactions on Graphics (TOG), 25(2):177–193, 2006.
[20] C. R. Qi, H. Su, K. Mo, and L. J. Guibas. Pointnet: Deep learning on point sets for 3d classification and segmentation. arXiv preprint arXiv:1612.00593, 2016.
[21] C. R. Qi, H. Su, M. Nießner, A. Dai, M. Yan, and L. Guibas. V olumetric and multi-view cnns for object classification on 3d data. In Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2016.
[22] G. Riegler, A. O. Ulusoys, and A. Geiger. Octnet: Learning deep 3d representations at high resolutions. arXiv preprint arXiv:1611.05009, 2016.
[23] R. M. Rustamov, Y . Lipman, and T. Funkhouser. Interior distance using barycentric coordinates. In Computer Graphics F orum, volume 28, pages 1279–1288. Wiley Online Library, 2009.
[24] P . Y . Simard, D. Steinkraus, and J. C. Platt. Best practices for convolutional neural networks applied to visual document analysis. In ICDAR, volume 3, pages 958–962, 2003.
[25] K. Simonyan and A. Zisserman. V ery deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
[26] H. Su, S. Maji, E. Kalogerakis, and E. G. Learned-Miller. Multi-view convolutional neural networks for 3d shape recognition. In Proc. ICCV , to appear, 2015.
[27] J. Sun, M. Ovsjanikov, and L. Guibas. A concise and provably informative multi-scale signature based on heat diffusion. In Computer graphics forum, volume 28, pages 1383–1392. Wiley Online Library, 2009.
[28] O. Vinyals, S. Bengio, and M. Kudlur. Order matters: Sequence to sequence for sets. arXiv preprint arXiv:1511.06391, 2015.
[29] P .-S. W ANG, Y . LIU, Y .-X. GUO, C.-Y . SUN, and X. TONG. O-cnn: Octree-based convolutional neural networks for 3d shape analysis. 2017.
[30] M. Weinmann, B. Jutzi, S. Hinz, and C. Mallet. Semantic point cloud interpretation based on optimal neighborhoods, relevant features and efficient classifiers. ISPRS Journal of Photogrammetry and Remote Sensing, 105:286–304, 2015.
[31] Z. Wu, S. Song, A. Khosla, F. Y u, L. Zhang, X. Tang, and J. Xiao. 3d shapenets: A deep representation for volumetric shapes. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1912–1920, 2015.
[32] L. Yi, V . G. Kim, D. Ceylan, I.-C. Shen, M. Yan, H. Su, C. Lu, Q. Huang, A. Sheffer, and L. Guibas. A scalable active framework for region annotation in 3d shape collections. SIGGRAPH Asia, 2016.
[33] L. Yi, H. Su, X. Guo, and L. Guibas. Syncspeccnn: Synchronized spectral cnn for 3d shape segmentation. arXiv preprint arXiv:1612.00606, 2016.