1. 程式人生 > >德勤財務機器人搭載發票識別掃描器

德勤財務機器人搭載發票識別掃描器

  

“我們預計到2025年,基礎財務可能會被機器人替代。”這是出自德勤中國稅務管理諮詢合夥人、德勤智慧未來研究院機器人中心成員葉建鋒,在關於“德勤機器人引發的財務新變革”主題沙龍上發表的講話。“小勤人”幾分鐘就能完成財務幾十分鐘才能完成的基礎工作,且可以7*24不間斷工作!“小勤人”將財務人從重複勞動中解放出來。現在只需要財務人員把增值稅發票放入掃描器中進行掃描,不到一分鐘的時間,“小勤人”就可以成功查驗一張發票並在Excel表中登記結果。

       在這當中,發票識別OCR技術發揮了至關重要的作用。它可以快速的對掃描所得影象進行切割、二值化、降噪等處理,極速輸出發票資訊,由此完全解決了手工錄入的難題。一個有發票識別OCR模組的“小勤人”三四個小時就完成了財務人一天的工作。對於一些大型企業,隨著企業規模不斷擴大、銷售業務不斷拓展,現有的財務部門開票會感受到日益增長的工作壓力。每月需要收集全國數百餘家銷售客戶的數萬份銷售記錄,按照客戶的需求開具五千餘張增值稅發票。繁重的日常工作經常壓得開票人員喘不過氣,到了月末更是需要日以繼夜地加班加點。在開票過程中,還需要收集並識別符合開票標準的銷售單型別,再根據客戶需求選擇特定金額的銷售單,從SAP系統中匯出待開票的資料,並經手工修改特定要求後,匯入金稅系統中完成開票操作,並將開票完成的記錄回傳進SAP,才能最終完成一份開票操作。

 

       引入集成了發票識別OCR技術的“小勤人”之後,通過機器人流程自動化技術的運用,提高了財務部門人員配置的合理性和有效性,達到了人力資源和工作強度的“削峰填谷”。原有的開票人員可以從機械的勞動工作者,轉變成了機器人的管理者,原有的大多數開票操作都可以交給機器人自主完成,他們只需要負責等待發票列印完成、稽核蓋章即可。

 

       現如今,德勤智慧機器人中心已經與多家企事業單位建立合作,提供財務自動化流程解決方案。集成了發票識別OCR技術的機器人為財務部門的工作帶來效率的提升,幫助財務人員完成大量重複規則化的工作。

 

       我們公司作為一家以OCR識別技術為根基,力爭為社會的安全事業貢獻力量的知名企業,在人工智慧的當今時代,已在金融、證券、政府機關、電信、酒店、銀行等多個行業建樹頗豐。

 

    OCR識別的技術流程解析,以下是OCR識別在具體技術實現時的步驟流程:

 

    一、OCR識別預處理:灰度化(如果是彩色影象)、降噪、二值化、字元切分以及歸一化這些子步驟。經過二值化後,影象只剩下兩種顏色,即黑和白,其中一個是影象背景,另一個顏色就是要識別的文字了;降噪在這個階段非常重要,降噪演算法的好壞對特徵提取的影響很大。字元切分則是將影象中的文字分割成單個文字——識別的時候是一個字一個字識別的。如果文字行有傾斜的話往往還要進行傾斜校正。歸一化則是將單個的文字影象規整到同樣的尺寸,在同一個規格下,才能應用統一的演算法。

 

    二、特徵提取和降維:特徵是用來識別文字的關鍵資訊,每個不同的文字都能通過特徵來和其他文字進行區分。對於數字和英文字母來說,這個特徵提取是比較容易的,因為數字只有10個,英文字母只有52個,都是小字符集。對於漢字來說,特徵提取比較困難,因為首先漢字是大字符集,國標中光是最常用的第一級漢字就有3755個;第二個漢字結構複雜,形近字多。在確定了使用何種特徵後,視情況而定,還有可能要進行特徵降維,這種情況就是如果特徵的維數太高(特徵一般用一個向量表示,維數即該向量的分量數),分類器的效率會受到很大的影響,為了提高識別速率,往往就要進行降維,這個過程也很重要,既要降低維數吧,又得使得減少維數後的特徵向量還保留了足夠的資訊量(以區分不同的文字)。

 

    三、分類器設計、訓練和實際識別:分類器是用來進行識別的,就是對於第二步,對一個文字影象,提取出特徵給分類器,分類器就對其進行分類,告訴你這個特徵該識別成哪個文字。在進行實際識別前,往往還要對分類器進行訓練,這是一個監督學習的案例。

 

    四、OCR識別後處理:後處理是用來對分類結果進行優化的,第一,分類器的分類有時候不一定是完全正確的,比如對漢字的識別,由於漢字中形近字的存在,很容易將一個字識別成其形近字。後處理中可以去解決這個問題,比如通過語言模型來進行校正——如果分類器將“在哪裡”識別成“存哪裡”,通過語言模型會發現“存哪裡”是錯誤的,然後進行校正。第二,OCR識別影象往往是有大量文字的,而且這些文字存在排版、字型大小等複雜情況,後處理中可以嘗試去對識別結果進行格式化。