1. 程式人生 > >增值稅發票識別,全票面OCR解析

增值稅發票識別,全票面OCR解析

隨著經濟的發展,業務越來越多,大家對於發票的需求也越來越大。所以就不能還跟隨著原先的老形式,進行手動輸入,為了更方便快捷我們就開發了增值稅發票自動識別的工具。

增值稅發票內容資訊自動掃描識別提取軟體,是一款針對增值稅發票以及常見的表單、票據等紙質文件資料掃描識別的產品,利用OCR識別技術,對增值稅發票掃描識別,快速完成表單、票據的資訊採集。

可實現全國通用的表格識別、票據識別,尤其是增值稅發票掃描識別,具有行業推廣性,增值稅發票掃描識別可以直接輸出excel表格資料,對於購買方、銷售方的名稱和納稅人識別號可以自動提取。

增值稅發票內容資訊自動掃描識別提取軟體具有強大的擴充套件性,通過系統開放的模板編輯工具可以滿足多種格式化表單票據資料採集的需求。

我們先來研究一下OCR,理想情況,OCR識別率要達到95%以上,才能真正的給行業帶來效益。那麼要達到這麼高的識別率,最起碼要做到哪些基本的影象處理呢?想必大家能想到的無非是以下這些,譬如影象糾偏,影象方向檢測,影象分色,印章提取和去除,包括紅色、綠色、藍色表格線的濾除,還有由於針式印表機導致的字元連結問題。只有把這些基本的因素處理到位,才能確保OCR擁有高識別率,讓財務人員手工修改量達到最少。

我們來看看目前能識別增值稅發票上的哪些要素。理想狀態是增值稅發票掃描識別後資訊統統輸出,但是目前沒有見到這樣的OCR識別結果。所以我們今天只討論市面上成熟的識別要素,自上而下的總結,發票程式碼、發票號碼、開票日期、稅率、金額、稅額、價稅合計大寫、價稅合計小寫、購貨單位名稱、購貨單位納稅人識別號、銷貨單位名稱、銷貨單位納稅人識別號。至於大家問到的明細識別和備註欄識別,在這裡不做深究,因為一般是用來做三單匹配的。

識別軟體的介面如下:

現在市面上主要識別的區域如下:

下面是匯出的Excel表格樣式:

此外,增值稅發票內容資訊自動掃描識別提取軟體,還可以根據客戶的需求,定製模板,並且提供開發介面,與客戶的內部系統完成對接,實時傳輸增值稅發票的資料!