單目深度估計:區域性平面資訊導引深度估計網路BTS
論文及作者資訊:
Hanyang University(韓國)
Jin Han Lee, Myung-Kyu Han, Dong Wook Ko and Il Hong Suh
【2019】From big to small Multi-scale local planar guidance for monocular depth estimation
開源:https://github.com/cogaplex-bts/bts
應用及分類:
單目深度估計從輸入形式上有三種:1,single image 2,monocular sequence 3,stereo supervision training+single image inference
單目深度估計從建模方法上分為三種:A,dense pixel-level continuous regression B,classification C, quantized regression(又稱ordinal regression)
BTS屬於1A
BTS基本資訊
0.有監督、端到端、單張RGB圖片作為輸入,輸出單張深度圖
1.網路架構:編解碼結構+skip connection+ ASPP+LPG,如下圖
ASPP: atrous spatial pyramid pooling
LPG: novel local planar guidance (BTS的主要技術點)
2.區域性
技術點解讀:LPG模組
0. 1x1卷積用了好幾次,用一次通道數降1/2,最後降到#channel=3.
1.Channel1 2 物理意義:平面法向量,代表了平面法向量的兩個自由度polar and azimuthal angles:θ,φ。通過公式變換為單位法向量(unit normal vector)(n1,n2,n3)。具體變換公式:
2.Channel3的物理意義:plane和origin的垂直距離(perpendicular distance),相當於一個bias。
3.每個畫素對應一組(n1,n2,n3,n4)
4.上述( n1,n2,n3,n4 )通過射線平面相交,得到區域性kxk patch的深度線索:
LPG效果:
實驗資訊:
平臺:four NVIDIA 1080ti GPUs
評估指標:論文中常用指標,錯誤率指標SqRel, AbsRel, RMSE, log10, RMSElog 以及精度指標δ
資料集:size 352 x 704 for KITTI and 416 x 544 for NYU Depth V2 datasets
NYU2:using 249 scenes for training and 215 scenes (654 images) for testing
KITTI:697 images covering a total of 29 scenes are used for evaluation, and the remaining 32 scenes of 23,488 images are used for the training (同Eigen工作劃分模式,即Eigen split)
輔助註釋:
Ours-xxxNet,或者提到的base network是指編碼部分採用的架構,編碼外其他部分相同:ResNet-101 , ResNext-101 and DenseNet- 161 ……這些網路在ILSVRC dataset預訓練,後續訓練中,網路最開始的兩層引數固定,不做更新。
選用不同網路做編碼器對比結果: