帶你讀AI論文：SDMG-R結構化提取—無限版式小票場景應用

阿新 • • 發佈：2021-08-06

摘要：在文件影象中提取關鍵資訊在自動化辦公應用中至關重要。傳統基於模板匹配或者規則的方法，在通用性方面、未見過版式模板資料方面，效果都不好；為此，本文提出了一種端到端的空間多模態圖推理模型（SDMG-R），能有效的從未見過的模板資料中提取關鍵資訊，並且通用性更好。

本文分享自華為雲社群《論文解讀系列十二：SDMG-R結構化提取—無限版式小票場景應用》，作者：一笑傾城。

原始碼：https://github.com/open-mmlab/mmocr/tree/4882c8a317cc0f59c96624ce14c8c10d05fa6dbc

1 背景

在文件影象中提取關鍵資訊在辦公自動化應用中至關重要，比如常見的存檔檔案、收據小票、信用表單等資料場景快速自動化歸檔、合規性檢查等等。傳統基於模板匹配或者規則的方法，主要利用的固定版式模板資料的佈局、位置座標資訊、內容規則等，這些資訊侷限性很強，因此在通用性方面、未見過版式模板資料方面，效果都不好。為此，本文提出了一種端到端的空間多模態圖推理模型（SDMG-R），能充分利用檢測文字區域的位置佈局、語義、視覺資訊，相比之前獲取的資訊的更充分豐富，因此能有效的從未見過的模板資料中提取關鍵資訊，並且通用性更好。

2 創新方法及亮點

2.1 資料

在之前的關鍵資訊抽取任務中，常用的資料集大部分是SROIE、IEHHR，但是他們訓練集、測試集有很多公共模板版式，因此不太適合去評估或驗證通用資訊提取模型的通用能力；基於以上原因，本文構建一套新的關鍵資訊抽取任務的資料集，並命名為WildReceipt：由25個類別組成，大概有50000個文字區域，資料量是SROIE的兩倍以上，詳細資訊如下表格2-1所示：

表2-1 關鍵資訊抽取任務資料集

2.2 創新點及貢獻

本文提出的SDMG-R在SROIE資料集和WildReceipt資料集上都獲得比較好的效果，並優於之前的方法模型。本文作者還去做了相關消融實驗，並驗證了本文提出的空間關係資訊和多模態特徵都對關鍵資訊提取有著非常重要的影響。具體創新及貢獻如下：

提出了一種有效的空間多模態圖推理網路（SDMG-R），能充分利用文字區域的語義、視覺兩個維度的空間特徵關係資訊；
構建了一套基準資料集（WildReceipt），是SROIE資料量的兩倍，而且訓練集版式模板和測試集版式模板交叉很少，因此可以用來做些通用關鍵資訊抽取任務的探索研究；
本文利用了視覺、語義特徵，如何利用好兩者資料，本文做了相關驗證：特徵融合方法的有效性（CONCAT、線性求和、克羅內克積），最終結果克羅內克積比其他兩種特徵融合方法高兩個點左右，如下表格2-2所示：

表2-2 特徵融合方法對比結果

3 網路結構

SDMG-R模型整個網路結構如下圖3-1所示，模型輸入資料由圖片、對應文字檢測座標區域、對應文字區域的文字內容，視覺特徵通過Unet及ROI-Pooling進行提取，語義特徵通過Bi-LSTM進行提取，然後多模態特徵通過克羅內克積進行融合語義、視覺特徵，然後再輸入到空間多模態推理模型提取最終的節點特徵，最後通過分類模組進行多分類任務；

圖3-1 SDMG-R網路結構

3.1 視覺特徵提取詳細步驟：

輸入原始圖片，resize到固定輸入尺寸（本文512x512）；
輸入到Unet，使用Unet作為視覺特徵提取器，獲取得到CNN最後一層的特徵圖；
將輸入尺寸的文字區域座標（）對映到最後一層CNN特徵圖，通過ROI-pooling方法進行特徵提取，獲取對應文字區域影象的視覺特徵；

3.2 文字語義特徵提取詳細步驟：

首先收集字符集表，本文收集了91個長度字元表，涵蓋數字（0-9）、字母（a-z，A-Z）、相關任務的特殊字符集（如“/”, “n”, “.”, “$”, “AC”, “ ”, “¥”, “:”, “-”, “*”, “#”等），不在字元表的字元統一標記成“unkown”；
其次，然後將文字字元內容對映到32維度的one-hot語義輸入的編碼形式；
然後輸入到Bi-LSTM模型中，提取256維度語義特徵；

3.3 視覺+文字語義特徵融合步驟：

3.4 空間關係多模態圖推理模型：

最終的節點特徵通過多模態圖推理模型完成，公式如下：

3.5 多分類任務模組

根據圖推理模型獲取節點的特徵，最後輸入到分類模組，通過多分類任務輸出最終的實體分類結果，損失函式使用的是交叉熵損失，公式如下：

4 實驗結果

在SROIE資料集的結果如下表4-1所示：

表4-1 SROIE的精度

在WildReceipt測試集的結果如下表4-2所示：

表4-2 WildReceipt的精度

點選關注，第一時間瞭解華為雲新鮮技術~

帶你讀AI論文：SDMG-R結構化提取—無限版式小票場景應用

1 背景

2 創新方法及亮點

2.1 資料

2.2 創新點及貢獻

3 網路結構

3.1 視覺特徵提取詳細步驟：

3.2 文字語義特徵提取詳細步驟：

3.3 視覺+文字語義特徵融合步驟：

3.4 空間關係多模態圖推理模型：

3.5 多分類任務模組

4 實驗結果

帶你讀AI論文：SDMG-R結構化提取—無限版式小票場景應用

帶你讀論文丨基於視覺匹配的自適應文字識別

帶你讀頂會論文丨基於溯源圖的APT攻擊檢測

帶你學夠浪：Go語言基礎系列 - 10分鐘學方法和介面

資料分析告訴你，AI論文怎麼投

欄位為空_P8帶你實戰Java Serializable：證明它就是就一個空的介面

看這裡！一文帶你讀懂單例模式

一篇文章帶你讀懂Spring如何解決迴圈依賴！

帶你學夠浪：Go語言基礎系列 - 8分鐘學基礎語法

帶你讀Paper丨分析ViT尚存問題和相對應的解決方案

來吧，帶你讀懂債券基金

一文帶你讀懂數字管家

AMD 帶你遍覽義大利：Zen 6 架構的 EPYC 霄龍處理器首曝，代號“威尼斯”

一文帶你讀懂 Hbase 的架構組成

YApi——手摸手，帶你在Win10環境下安裝YApi視覺化介面管理平臺

【tim帶你學】HDFS DataNode的目錄結構

帶你掌握C++中三種類成員初始化方式

一文帶你走進js-資料型別與資料結構的世界

AI專家一席談：複用演算法、模型、案例，AI Gallery帶你快速上手應用開發

亞馬遜首席科學家李沐B站走紅，連博導們都在追更，還帶你逐段讀懂論文

帶你讀AI論文：SDMG-R結構化提取—無限版式小票場景應用

1 背景

2 創新方法及亮點

2.1 資料

2.2 創新點及貢獻

3 網路結構

3.1 視覺特徵提取詳細步驟：

3.2 文字語義特徵提取詳細步驟：

3.3 視覺+文字語義特徵融合步驟：

3.4 空間關係多模態圖推理模型：

3.5 多分類任務模組

4 實驗結果

相關推薦