PointNet:Deep Learning on Point Sets for 3D Classification and Segmentation翻譯
摘要:
點雲是一種重要的幾何資料結構,因為它的無序性,大多數研究將這種資料轉換成規則3D體素網格(regular 3D voxel grids)或者圖片集合(collections of images)。然而,renders data unnecessarily voluminous and causes issues.本文中,我們設計了一個新的神經網路,該網路能夠直接處理點雲資料,且使得這些點雲資料準確地表現出輸入資料的排列不變性。我們的網路名叫PointNet,提供了一種可應用於目標分類,語義分割,場景分割等的整體框架。最然簡單,但PointNet非常有效且效率很高。按經驗來說,該網路在par上表現很好甚至超過人工層面。理論上來說,我們對網路學習了什麼和為什麼網路能夠對與輸入的無序資料保持健壯性進行了分析。
簡介:
在本文中我們利用深度學習框架處理3D幾何資料例如點雲資料和網格(meshes)資料,傳統卷積框架需要有序的輸入資料格式,如圖片網格和3D體素資料,這是為了實現權重共享和其他核函式優化。由於點雲資料或者網格資料不是有序的,所以大多數研究者吧這種資料轉換成規則3D體素資料或者圖片集合然後再放入深度學習網路。。。。。。。。
因此我們研究了一種不同的3D空間資料輸入,直接處理簡單的點雲資料,並命名為PointNets.點雲資料是簡單而統一的結構,可以避免組合不規則性和網格的複雜性,因此是更加容易學習的。然而PointNet仍然必須尊重這樣的事實:點雲資料只是無序點的集合,因此保證排列不變性需要再網路計算中有確定的對稱性,更進一步,剛體運動的不變性也需要被考慮。
我們的網路輸入為:點雲資料,輸出為:分類標籤(class label),或者每個點的分割標籤(segment/part labels).我們網路的基礎框架是非常簡單的,在初始化階段,每個點是平等且獨立的。在基礎設定中,每個點只由其三個維度的座標構成(x,y,z)。其他的維度由正常的計算和其他區域性或全域性特徵新增。
我們的方法的關鍵在於簡單對稱方程和最大池化層的應用。尤其是學習一個優化方程/準則來選擇點雲中感興趣或包含資訊的點,為他們的選擇原因編碼(encode the reason for their selection)。網路的最後一層全連線層聚集了這些學習到的最優值並放入