1. 程式人生 > >OCR身份證識別簡單演算法流程

OCR身份證識別簡單演算法流程

做OCR身份證識別的調研,正好整理一下從基礎的影象處理角度的演算法流程。

OCR簡介

  • 光學字元識別 Optical Character Recognition(OCR)
  • 其目標是對影象中的字元進行分析識別,將其轉換為文字格式的字元序列。
  • 利用模式識別和數字影象處理技術,解決文字輸入問題。

按輸入方式分類

  • 印刷體文字
  • 手寫體文字(由掃描器輸入/由手寫板輸入)

按識別字符集分類

  • 英文,中文,日文,韓文等
  • 中文,常用4000字,各種字型,相似字不易區分

面向應用的OCR

  • 牌照,票據,文稿,名片,身份證,駕駛執照,汽車製造業。

身份證識別

識別身份證圖片中的個人資訊和數字編號

一個典型的身份證識別演算法流程圖如下:

一個典型的身份證識別演算法流程

影象預處理

  • 降噪
    濾波、光照處理
  • 增強(可選)
    灰度拉伸
  • 二值化
    由灰度影象變成二值影象
  • 傾斜校正
    Hough變換、投影法

影象分割

  • 行分割

    身份證影象字元資訊分佈規則,每行有一定間隙;採用水平投影法進行影象分割
    行分割

  • 字元分割

    垂直投影
    字元分割

字元識別

  • 模板匹配法

    對每個字元建立一個標準模板,進行圖形匹配、筆畫匹配、幾何特徵匹配。
    特點:實現簡單,影象質量要求高,計算速度慢,相似字元識別率低

  • 人工神經網路字元識別演算法

    artificial neural network,簡稱神經網路(neural network),是一種模仿生物神經網路的結構和功能的數學模型或計算模型。

識別結果處理

對各文字識別結果進行後處理糾錯

- 身份證號碼驗證

①1-2 省級行政區程式碼
②3-4 地級行政區劃分程式碼
③5-6 縣區行政區分程式碼
④7-14 出生年月日
⑤15-17 順序碼,同一地區同年同月同日出生人的編號,奇數是男性,偶數是女性
⑥18 校驗碼,如果是0-9則用0-9表示,如果是10則用X(羅馬數字10)表示

- 有效期驗證

5年,10年,20年,長期

身份證識別軟體

  • 雲脈
  • 文通
  • Abbyy
  • ……

識別效果和照片清晰度、 傾斜度、背景、光照、對比度等相關性較大。