1. 程式人生 > 實用技巧 >單目深度估計:區域性平面資訊導引深度估計網路BTS

單目深度估計:區域性平面資訊導引深度估計網路BTS

論文及作者資訊:

Hanyang University韓國

Jin Han Lee, Myung-Kyu Han, Dong Wook Ko and Il Hong Suh

【2019】From big to small Multi-scale local planar guidance for monocular depth estimation

源:https://github.com/cogaplex-bts/bts

應用及分類:

單目深度估計從輸入形式上有三種:1,single image 2,monocular sequence 3,stereo supervision training+single image inference

單目深度估計從建模方法上分為三種:A,dense pixel-level continuous regression B,classification C, quantized regression(又稱ordinal regression)

BTS屬於1A

BTS基本資訊

0.有監督、端到端、單張RGB圖片作為輸入,輸出單張深度圖

1.網路架構:編解碼結構+skip connection+ ASPP+LPG,如下圖

ASPP: atrous spatial pyramid pooling

LPG: novel local planar guidance (BTS的主要技術點)

2.區域性

線性假設LPG模組: novel local planar guidance,將internal features回覆到full resolution, 認為LPG模組直接定義或者說表達了internal features和最後full depth之間的關係。

技術點解讀:LPG模組

0. 1x1卷積用了好幾次,用一次通道數降1/2,最後降到#channel=3.

1.Channel1 2 物理意義:平面法向量,代表了平面法向量的兩個自由度polar and azimuthal anglesθφ。通過公式變換為單位法向量unit normal vector(n1,n2,n3)。具體變換公式:

2.Channel3的物理意義:planeorigin的垂直距離(perpendicular distance),相當於一個bias。

3.每個畫素對應一組(n1,n2,n3,n4)

4.上述( n1,n2,n3,n4 )通過射線平面相交,得到區域性kxk patch的深度線索:

LPG效果:

實驗資訊:

平臺four NVIDIA 1080ti GPUs

評估指標:論文中常用指標,錯誤率指標SqRel, AbsRel, RMSE, log10, RMSElog 以及精度指標δ

資料集:size 352 x 704 for KITTI and 416 x 544 for NYU Depth V2 datasets

NYU2using 249 scenes for training and 215 scenes (654 images) for testing

KITTI697 images covering a total of 29 scenes are used for evaluation, and the remaining 32 scenes of 23,488 images are used for the training (同Eigen工作劃分模式,即Eigen split

輔助註釋:

Ours-xxxNet,或者提到的base network是指編碼部分採用的架構,編碼外其他部分相同:ResNet-101 , ResNext-101 and DenseNet- 161 ……這些網路在ILSVRC dataset預訓練,後續訓練中,網路最開始的兩層引數固定,不做更新。

選用不同網路做編碼器對比結果:

閱讀遺留問題

1. 損失函式的構造部分沒有看 2. 網路計算量

存疑部分:

LPG最後一步H/4如何通過ci恢復到H