OCR識別之LEADTOOLS介紹
阿新 • • 發佈:2018-12-19
LEADTOOLS OCR文字識別引擎是一種光學字元識別軟體開發工具包(SDK),它可以為開發人員、整合商、業務流程外包商(BPO)和原始裝置製造商(OEM)提供強大、簡單易用的控制元件,從而非常容易的將OCR技術整合到應用和裝置中。
LEADTOOLS為.NET(C# & VB.NET)、C/C++、Java和Web開發者提供了快速且精確度高的先進文字識別技術SDK。利用LEADTOOLS OCR文字識別工具包,可以快速的開發健壯的、可擴充套件的、高效能識別的文件處理應用程式,這些應用程式可提取出掃描檔案中的文字,將影象轉化為文字搜尋格式,如PDF、PDF/A、DOC、DOCX
LEADTOOLS廣泛支援40餘種字符集,程式設計者通過提供多語言的解決方案擴充套件使用者群,包括英語、西班牙語、法語、德語、日語、中文、阿拉伯語及更多。
LEADTOOLS OCR SDK技術的概述
- 在任何應用和環境下,均可快速、準確和可靠地完成光學字元識別
- 大量檔案的批處理
- 單一和多頁文件
- Web和雲應用
- 全面的最大效能多執行緒支援
- 功能齊全的SDK
- 用於影象到最終文件的一次性識別的高階類
- 全面定製的低層次功能
- 支援多文字識別引擎
- 用於機器列印文字的OCR文字識別
- 用於手寫文字的ICR
- 用於檢查處理的MICR
- 用於護照號碼的MRZ&MRP
- 識別40餘種語言和字符集的文字,包括英語、西班牙語、法語、德語、日語、中文、阿拉伯語等
- 拼寫檢查和字典支援
- 自動檢測、分割和識別同一個文件中的多種語言
- 整頁分析和區域識別
- 針對掃描檔案和圖片,有獨一無二的彩色和黑白影象識別
- 自動的檔案清除
- 全方位的噪點去除
- Undither文字
- 點陣校正
- 從表中刪除行的選項
- 自動的文件預處理
- 掃描檔案的抗扭斜處理
- 以完整文件或逐頁的模式檢測和更正檔案的方向(翻轉的或顛倒的)
- 完全配置的識別引擎
- 用字元和數字過濾器縮小可能的結果
- 多次表決技術提高準確率
- 跟蹤和發展回撥
- 啟用/禁用快速文字識別的字型特徵
- 文字結果的全面報告
- 字元的位置、大小和基線
- 字元屬性(詞末、行末、段末等)
- 字型屬性(等寬字型、比例、襯線、無襯線、粗體、斜體、下劃線、刪除線)
- 置信度
- 可將識別出的文字存到一塊區域或一個頁面上,不需要存入到外部檔案中
- 輸出可搜尋的檔案格式,如PDF、PDF/A、DOC、DOCX、XML、XPS等,並保持原來的外觀和感覺
- 可檢測文字字型的特色(字型型別名稱、樣式、大小、粗體、斜體、下劃線、刪除線等)
- 位置
- 表重建
- 佈局
- 圖形