單目深度估計：區域性平面資訊導引深度估計網路BTS

阿新 • • 發佈：2020-10-16

論文及作者資訊：

Hanyang University（韓國）

Jin Han Lee, Myung-Kyu Han, Dong Wook Ko and Il Hong Suh

【2019】From big to small Multi-scale local planar guidance for monocular depth estimation

開源：https://github.com/cogaplex-bts/bts

應用及分類：

單目深度估計從輸入形式上有三種：1，single image 2，monocular sequence 3，stereo supervision training+single image inference

單目深度估計從建模方法上分為三種：A，dense pixel-level continuous regression B,classification C, quantized regression(又稱ordinal regression)

BTS屬於1A

BTS基本資訊

0.有監督、端到端、單張RGB圖片作為輸入，輸出單張深度圖

1.網路架構：編解碼結構+skip connection+ ASPP+LPG,如下圖

ASPP: atrous spatial pyramid pooling

LPG: novel local planar guidance (BTS的主要技術點)

2.區域性

線性假設LPG模組: novel local planar guidance，將internal features回覆到full resolution, 認為LPG模組直接定義或者說表達了internal features和最後full depth之間的關係。

技術點解讀：LPG模組

0. 1x1卷積用了好幾次，用一次通道數降1/2，最後降到#channel=3.

1.Channel1 2 物理意義：平面法向量，代表了平面法向量的兩個自由度polar and azimuthal angles：θ，φ。通過公式變換為單位法向量（unit normal vector）(n1,n2,n3）。具體變換公式：

2.Channel3的物理意義：plane和origin的垂直距離(perpendicular distance），相當於一個bias。

3.每個畫素對應一組（n1,n2,n3,n4）

4.上述（ n1,n2,n3,n4 ）通過射線平面相交，得到區域性kxk patch的深度線索：

LPG效果：

實驗資訊：

平臺：four NVIDIA 1080ti GPUs

評估指標：論文中常用指標，錯誤率指標SqRel, AbsRel, RMSE, log10, RMSElog 以及精度指標δ

資料集：size 352 x 704 for KITTI and 416 x 544 for NYU Depth V2 datasets

NYU2：using 249 scenes for training and 215 scenes (654 images) for testing

KITTI：697 images covering a total of 29 scenes are used for evaluation, and the remaining 32 scenes of 23,488 images are used for the training （同Eigen工作劃分模式，即Eigen split）

輔助註釋：

Ours-xxxNet，或者提到的base network是指編碼部分採用的架構，編碼外其他部分相同：ResNet-101 , ResNext-101 and DenseNet- 161 ……這些網路在ILSVRC dataset預訓練，後續訓練中，網路最開始的兩層引數固定，不做更新。

選用不同網路做編碼器對比結果：

閱讀遺留問題：

1. 損失函式的構造部分沒有看 2. 網路計算量

存疑部分：

LPG最後一步H/4如何通過ci恢復到H

單目深度估計：區域性平面資訊導引深度估計網路BTS

論文及作者資訊：

應用及分類：

BTS基本資訊

技術點解讀：LPG模組

實驗資訊：

閱讀遺留問題：

存疑部分：

單目深度估計：區域性平面資訊導引深度估計網路BTS

深度學習：人群密度估計Residual Regression和Semantic Prior論文（CVPR2019）解讀

百度論文研究：單目攝像頭實時感知車輛形狀，顯著提高 3D 目標檢測效能

OPPO Air Glass 新一代智慧眼鏡釋出：單目分體式設計，重量不到 30g

SpyDealer深度剖析：一個廣泛針對中國手機APP進行資訊竊取的惡意軟體

django form 表單實現前端認證以及顯示錯誤資訊

深度分析：面試阿里，位元組跳動，美團幾乎都會被問到的阻塞佇列

大話深度學習：B站Up主麥叔教你零程式碼實現影象分類神經網路

深度分析：java8的新特性lambda和stream流，看完你學會了嗎？

R語言非引數模型釐定保險費率：區域性迴歸、廣義相加模型GAM、樣條迴歸

深度分析：面試阿里，位元組跳動，美團90%被問到的List集合，看完還不懂算我輸

基於FPGA的單目內窺鏡定位系統設計（下）

轉：標準化互資訊NMI計算步驟及其Python實現

劍指offer（三十八）：二叉樹的深度

traceback模組：獲取異常資訊

深度分析：註解和反射，註解自定義與反射具體使用例項全幫你搞明白

pytorch深度學習：線性迴歸

drf_序列化工具之單改與群改(區域性與整體)

pytorch深度學習：非線性模型

pytorch深度學習：一般分類器

單目深度估計：區域性平面資訊導引深度估計網路BTS

論文及作者資訊：

應用及分類：

BTS基本資訊

技術點解讀：LPG模組

實驗資訊：

閱讀遺留問題：

存疑部分：

相關推薦