CNN+LSTM深度學習文字檢測

阿新 • • 發佈：2019-01-07

最近看到論文Detecting Text in Natural Image with Connectionist Text Proposal Network
這是作者的主頁

論文的閱讀可以看下這邊部落格：

對文字的檢測效果挺不錯的，就把它移到了windows平臺上。在我的筆記本上cpu模式下大概要10s，gpu模式大概800ms吧。先看下論文執行的效果。

這裡寫圖片描述

—-

這裡寫圖片描述

整體效果還是挺好的，作者提供的程式碼沒有對傾斜進行處理，我對檢測完的結果稍微做了傾斜角度判斷。

網路結構

這裡寫圖片描述

這是作者論文提供的圖片。其中side-refinement並沒有提供相應的程式碼，就不做分析了。
1: 輸入為3*600（h)*900(w),首先vgg-16提取特徵，到conv5-3時，大小為512*38*57。

2: im2col層 512*38*57 ->4608 * 38 * 57 其中4608為(512*9 (3*3卷積展開))

3 : 而後的lstm層 57*38*4608 ->57*38*128 reverse-lstm同樣得到的是57*38*128。(雙向lstm沒有去研究，但我個人理解應該是左邊的結果對右邊會產生影響，同樣右邊也會對左邊產生影響，有空再去看)
merge後得到了最終lstm_output的結果 256* 38 * 57

4: fc層得到512*38*57 fc不再展開，就是一個256*512的矩陣引數

5:rpn_cls_score層得到置信度 512*38*57 ->20*38*57
其中20 = 10 * 2 其中10為10個尺度同樣為512*20的引數，kernel_size為1的卷積層

6：rpn_bbox_pre層得到偏移 512*38*57 ->20*38*57。同樣是十個尺度 2 * 10 * 38 * 57
因為38*57每個點每個scale的固定位置我們是知道的。而它與真實位置的偏移只需兩個值便可以得到。
假設固定位置中點( Cx,Cy) 。高度Ch。實際位置中點（x,y) 高度h
則log(h/Ch）作為一個值
(y-Cy) / Ch作為一個值
20 * 38 * 57 便是10個尺度下得到的這兩個值。有了這兩個值，我們便能知道真實的文字框位置了。

對檢測結果的處理

檢測完得到很多個寬度固定（16)的矩形框 conf>0.7

這裡寫圖片描述

對得到的矩形框進行nms處理

這裡寫圖片描述

按照作者提供的條件規則，對小矩形框進行連線，得到文字行

這裡寫圖片描述

CNN+LSTM深度學習文字檢測

—-

網路結構

對檢測結果的處理

CNN+LSTM深度學習文字檢測

深度學習目標檢測模型全面綜述：Faster R-CNN、R-FCN和SSD

深度學習目標檢測(object detection)系列（四） Faster R-CNN

【AI實戰】手把手教你深度學習文字識別（文字檢測篇：基於MSER, CTPN, SegLink, EAST等方法）

深度學習-缺陷檢測

深度學習目標檢測經典模型比較（RCNN、Fast RCNN、Faster RCNN）

windows+tensorflow object detection api 深度學習目標檢測實踐

深度學習目標檢測之YOLO系列

深度學習目標檢測系列：faster RCNN實現|附python原始碼

深度學習目標檢測_01

深度學習目標檢測系列：一文弄懂YOLO演算法|附Python原始碼

深度學習-目標檢測綜述

深度學習物體檢測（八）——YOLO2

深度學習ssd檢測模型訓練自己的資料集

深度學習物體檢測（九）——物件檢測YOLO系列總結

Matlab: 深度學習目標檢測xml標註資訊批量統計

深度學習-目標檢測資料集以及評估指標

深度學習目標檢測常用工具型程式碼：對檢測出來的結果單獨進行softnms操作

深度學習物體檢測（七）——SSD

深度學習目標檢測：RCNN，Fast，Faster，YOLO，SSD比較

CNN+LSTM深度學習文字檢測

—-

網路結構

對檢測結果的處理

相關推薦