OCR身份證識別簡單演算法流程
阿新 • • 發佈:2019-01-06
做OCR身份證識別的調研,正好整理一下從基礎的影象處理角度的演算法流程。
OCR簡介
- 光學字元識別 Optical Character Recognition(OCR)
- 其目標是對影象中的字元進行分析識別,將其轉換為文字格式的字元序列。
- 利用模式識別和數字影象處理技術,解決文字輸入問題。
按輸入方式分類
- 印刷體文字
- 手寫體文字(由掃描器輸入/由手寫板輸入)
按識別字符集分類
- 英文,中文,日文,韓文等
- 中文,常用4000字,各種字型,相似字不易區分
面向應用的OCR
- 牌照,票據,文稿,名片,身份證,駕駛執照,汽車製造業。
身份證識別
識別身份證圖片中的個人資訊和數字編號
一個典型的身份證識別演算法流程圖如下:
影象預處理
- 降噪
濾波、光照處理 - 增強(可選)
灰度拉伸 - 二值化
由灰度影象變成二值影象 - 傾斜校正
Hough變換、投影法
影象分割
行分割
身份證影象字元資訊分佈規則,每行有一定間隙;採用水平投影法進行影象分割
字元分割
垂直投影
字元識別
模板匹配法
對每個字元建立一個標準模板,進行圖形匹配、筆畫匹配、幾何特徵匹配。
特點:實現簡單,影象質量要求高,計算速度慢,相似字元識別率低人工神經網路字元識別演算法
artificial neural network,簡稱神經網路(neural network),是一種模仿生物神經網路的結構和功能的數學模型或計算模型。
識別結果處理
對各文字識別結果進行後處理糾錯
- 身份證號碼驗證
①1-2 省級行政區程式碼
②3-4 地級行政區劃分程式碼
③5-6 縣區行政區分程式碼
④7-14 出生年月日
⑤15-17 順序碼,同一地區同年同月同日出生人的編號,奇數是男性,偶數是女性
⑥18 校驗碼,如果是0-9則用0-9表示,如果是10則用X(羅馬數字10)表示
- 有效期驗證
5年,10年,20年,長期
身份證識別軟體
- 雲脈
- 文通
- Abbyy
- ……
識別效果和照片清晰度、 傾斜度、背景、光照、對比度等相關性較大。