《論文閱讀》FPConv: Learning Local Flattening for Point Convolution
阿新 • • 發佈:2020-10-17
留個筆記自用
FPConv: Learning Local Flattening for Point Convolution
做什麼
Point Cloud Based Semantic Analysis基於點雲的語義分析,語義分割( Semantic segmentation)需要預測出輸入影象的每一個畫素點屬於哪一類的標籤。相比於2D的畫素點,這裡分割的單位是點雲中的每個點
做了什麼
這裡假設的是,利用儀器得到的3D點雲的點是落在表面的,內部是幾乎沒有點的,因此直接處理表面對於3D資料來說可行性很高。於是這裡學習如何沿著區域性表面擴散每個點的卷積權重,而不是直接投影到切面上進行卷積
上面是傳統方法,將點雲投影到2D平面上,然後再根據投影位置進行插入,但這種方法會因為多檢視和冗餘造成混亂。下面的方法就是根據3D點雲每個點的區域性鄰域投影到其區域性切面,並用2D卷積處理它們
怎麼做
首先先定義區域性伸展的方式中的符號
假設點雲集合為P,某個點記號為p,F(p)是該點的一個編碼函式,通過一系列網路結構能將點包含的顏色、位置等特徵編碼,N(p)表示以p點中中心的local patch
簡單來說就是以p點為圓心的半徑為ρ的圓內的點與p的距離的集合
為了繞著3D點雲的表面將每個點區域性2D化,這裡假設存在一個虛擬的2D面,即
假設該面為S,存在
這裡的S()是一個連續訊號,π()是一個對映關係,這裡的意思就是要求對映後的點在連續訊號上的取值等同於3D下每個點的特徵encode值
然後這是普通的卷積定義,c()是卷積核
之後解釋如何將上述卷積公式化為一個權重學習問題
這裡假設S是一個Mw×Mh的2D平面,vj{1,2,3…Mw×Mh}也就是平面上每個點的取值,後面的F(qi)是encode值,w是
重新把卷積公示整個改變一下
其中cj是離散化的卷積核權重,同樣j是對每個點即vj{1,2,3…Mw×Mh}都有的相關權重,將wji和c<sub<j均可寫成矩陣形式
這裡的L等於Mw×Mh,F(p)就是
簡單來說,對整個對映過程做一個理解,假設P內有某個點,它的鄰域內有N個點,希望的是能用這N個點映射出一個包含n個點特徵的平面,這個平面是Mw×Mh大小的S
為了將原來的特徵對映到2D平面上,需要一個計算attention的矩陣,即Wf
整體結構如