1. 程式人生 > >OCR識別之LEADTOOLS介紹

OCR識別之LEADTOOLS介紹

       LEADTOOLS OCR文字識別引擎是一種光學字元識別軟體開發工具包(SDK),它可以為開發人員、整合商、業務流程外包商(BPO)和原始裝置製造商(OEM)提供強大、簡單易用的控制元件,從而非常容易的將OCR技術整合到應用和裝置中。

       LEADTOOLS為.NET(C# & VB.NET)、C/C++、Java和Web開發者提供了快速且精確度高的先進文字識別技術SDK。利用LEADTOOLS OCR文字識別工具包,可以快速的開發健壯的、可擴充套件的、高效能識別的文件處理應用程式,這些應用程式可提取出掃描檔案中的文字,將影象轉化為文字搜尋格式,如PDF、PDF/A、DOC、DOCX

、XML、XPS等。

       LEADTOOLS廣泛支援40餘種字符集,程式設計者通過提供多語言的解決方案擴充套件使用者群,包括英語、西班牙語、法語、德語、日語、中文、阿拉伯語及更多。

LEADTOOLS OCR SDK技術的概述

  • 在任何應用和環境下,均可快速、準確和可靠地完成光學字元識別
    • 大量檔案的批處理
    • 單一和多頁文件
    • Web和雲應用
  • 全面的最大效能多執行緒支援
  • 功能齊全的SDK
    • 用於影象到最終文件的一次性識別的高階類
    • 全面定製的低層次功能
  • 支援多文字識別引擎
    • 用於機器列印文字的OCR文字識別
    • 用於手寫文字的ICR
    • 用於檢查處理的MICR
    • 用於護照號碼的MRZ&MRP
  • 識別40餘種語言和字符集的文字,包括英語、西班牙語、法語、德語、日語、中文、阿拉伯語等
  • 拼寫檢查和字典支援
  • 自動檢測、分割和識別同一個文件中的多種語言
  • 整頁分析和區域識別
  • 針對掃描檔案和圖片,有獨一無二的彩色和黑白影象識別
  • 自動的檔案清除
    • 全方位的噪點去除
    • Undither文字
    • 點陣校正
    • 從表中刪除行的選項
  • 自動的文件預處理
    • 掃描檔案的抗扭斜處理
    • 以完整文件或逐頁的模式檢測和更正檔案的方向(翻轉的或顛倒的)
  • 完全配置的識別引擎
    • 用字元和數字過濾器縮小可能的結果
    • 多次表決技術提高準確率
    • 跟蹤和發展回撥
    • 啟用/禁用快速文字識別的字型特徵
  • 文字結果的全面報告
    • 字元的位置、大小和基線
    • 字元屬性(詞末、行末、段末等)
    • 字型屬性(等寬字型、比例、襯線、無襯線、粗體、斜體、下劃線、刪除線)
    • 置信度
    • 可將識別出的文字存到一塊區域或一個頁面上,不需要存入到外部檔案中
  • 輸出可搜尋的檔案格式,如PDF、PDF/A、DOC、DOCX、XML、XPS等,並保持原來的外觀和感覺
    • 可檢測文字字型的特色(字型型別名稱、樣式、大小、粗體、斜體、下劃線、刪除線等)
    • 位置
    • 表重建
    • 佈局
    • 圖形