1. 程式人生 > >Tesseract處理背景漸變的圖片

Tesseract處理背景漸變的圖片

漸變圖 () filepath png ocr識別 背景漸變 處理 lose 圖片

在Tesseract處理背景漸變圖片不太理想的情況下, 可以利用Pillow庫, 創建一個閾值過濾器來去掉漸變的背景色, 只把文字留下來, 從而讓圖片更清晰, 便於Tesseract讀取:

 1 from PIL import Image
 2 import subprocess
 3 
 4 def cleanFile(filePath, newFilePath):
 5     image = Image.open(filePath)
 6 
 7     # 對圖片進行閾值過濾, 然後保存
 8     image = image.point(lambda x: 0 if x<143 else
255) 9 image.save(newFilePath) 10 11 # 調用系統的tesseract命令對圖片進行ocr識別 12 # subprocess.call(["tesseract", newFilePath, "output"]) //報錯:文件找不到 13 subprocess.call(["C:/Program Files (x86)/Tesseract-OCR/tesseract", newFilePath, "output"]) 14 15 # 打開文件讀取結果 16 outputFile = open("output.txt
", r) 17 print(outputFile.read()) 18 outputFile.close() 19 20 cleanFile("text_2.png", "text_2_clean.png")

以下兩張圖片分別為text_2.png和text_2_clean.png

技術分享技術分享

Tesseract處理背景漸變的圖片