記一次 python3 驗證碼識別出錯過程

阿新 • • 發佈：2018-12-26

需要安裝

pillow、pytesseract、tesseract-ocr

前面2個可以直接pip安裝，tesseract-ocr需要去下載安裝包（直接網上搜，很多）

安裝完執行下py程式碼

import pytesseract
from PIL import Image
img=Image.open('./ver.jpg')
print (pytesseract.image_to_string(img, lang='chi_sim'))

出現錯誤： FileNotFoundError: [WinError 2] 系統找不到指定的檔案。

根據網上資料，更改 pytesseract.py 內容

tesseract_cmd = 'tesseract' 改成絕對路徑：

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

再次執行程式碼

出現錯誤：

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file C:\\Program Files (x86)\\Tesseract-OCR\\chi_sim.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'chi_sim\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')

顯示沒把 TESSDATA 加入環境變數

新增完還是出現上面的錯誤

執行 dos tesseract是可以執行的

但是在py程式碼裡面就不可以了，什麼原因呢？？？？？？

再仔細觀察錯誤，原來少了 chi_sim 的語言包，修改下原始碼

import pytesseract
from PIL import Image

img=Image.open('./ver.jpg')

print (pytesseract.image_to_string(img))

總結：原來的原始碼是從別的網站上拷過來，沒留言沒有 chi_sim 中文語言包，導致出錯，一直以為是環境變數問題

，下次要仔細點才行

記一次 python3 驗證碼識別出錯過程

需要安裝 pillow、pytesseract、tesseract-ocr 前面2個可以直接pip安裝，tesseract-ocr需要去下載安裝包（直接網上搜，很多）安裝完執行下py程式碼 import pytesseract from PIL import Image i

記一次Python3爬蟲利用pyppeteer得到網站js加密後的密文

分析的是一個航空網站，其實是我再找python執行js程式碼的資料的時候，發現了一個博主分析了這個網站的加密過程，然後我去跟著操作的時候，發現網站的加密部分程式碼發生了變化，不過在我不小心把網頁關了之後，我實在找不到那篇文章了。。。。。所以我再說一下整個的分析過

(一)python爬蟲驗證碼識別（去除干擾線）

（一）python爬蟲驗證碼識別（去除干擾線） 1.開發環境與工具 python27：sklearn、pytesser、opencv等 pycharm windows7 2. 資料集用request庫爬蟲抓取某一網站驗證碼1200張，並

記一次python3 大檔案解壓和操作

先說下：所謂的大檔案並不是壓縮檔案有多大，幾十兆的檔案而是解壓後幾百兆。其中就遇到解壓不成功的情況.、讀小檔案時成功，大檔案時失敗等 def unzip_to_txt_plus(zipfilename): zfile = zipfile.ZipFile(zipf

TPS低，CPU高--記一次storm壓測問題排查過程

進入狀態其他 value 由於均衡線程狀態左右 grep 命令一、業務背景+系統架構本次場景為kafka+storm+redis+hbase，通過kafka的數據，進入storm的spout組件接收，轉由storm的Bolt節點進行業務邏輯處

記一次線上gc調優的過程

aspect hash 接下來 JD lac abs rac 數據庫 %x 近期公司運營同學經常表示線上我們一個後臺管理系統運行特別慢，而且經常出現504超時的情況。對於這種情況我們本能的認為可能是代碼有性能問題，可能有死循環或者是數據庫調用次數過多導致接口運

記一次Xmrig挖礦木馬排查過程

linux 系統異常定位計劃任務 root systemctl ica 文件名發現問題現象 Linux 服務器收到報警信息，主機 CPU 跑滿。自動創建運行 Docker 容器 xmrig，導致其他運行中容器被迫停止。問題原因通過 to

記一次自動化測試崗位面試的過程及問題

自我介紹一下 8la8la8la… 說說你的自動化框架是怎麼實現的 python+selenium+excel檔案用資料驅動我的意思是說，具體怎麼實現的哦，先寫一個base檔案做基礎負責呼叫實際方法，還有資料的讀寫；然後往上有專門封裝UI操作的method檔案，

記一次APP脫殼重打包過程

小夥伴分享了一個開車軟體，但是有播放次數限制。對此小夥伴放言要制裁它，無奈APP加固了。咳咳，本著學（wei）習（le）研（fu）究（li）的態度，嘗試著脫殼並重打包。為證清白，伸出雙手，上操作。右鍵直接解壓APK，檢視特徵是360加固：使用apktool工具反編譯APK作為

記一次MHA主從不同步恢復過程

背景：根據生產環境故障模擬，由於生產環境主機mysql資料目錄滿，造成業務側連線mysql異常。維護人員在排查時，誤將MHA中主master的二進位制日誌全部清除，造成兩個從庫向主庫同步拉取日誌失敗，報找不到日誌錯誤。為解決該問題，同時又考慮到生產庫不能停庫，所以準備在主master庫上對相關

記一次Linux下安裝pyspider的過程

首先執行pip install pyspider此時系統提示Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-Lau0Qp/pycurl/ You are using p

記一次Dubbo導致的記憶體洩漏過程分析及解決

近日測試團隊反饋版本機測試環境請求經常卡頓，十分緩慢，甚至有超時的情況，但是請求返回、業務邏輯均是正常的，因此進行了一番排查。首先檢視應用日誌，及控制檯監控，應用均表現無異常，由於版本

記一次有驚無險的Linux資料恢復過程

問題階段起因: 昨天晚上思路不是很清晰(上了一天班回來有點蒙),還是強忍著疲憊想搞事情,結果悲劇了… … 本來想拿SD卡做一張linux燒錄卡,燒錄指令碼是很久以前寫的,有git記錄,一直不成功,就回退了幾次提交,然後執行的時候沒有給指令碼傳參(/dev

字元型圖片驗證碼識別完整過程及Python實現

1111000111111000111111100001111100000011 1110111011110111011111011110111100110111 1001110011110111101011011010101101110111 110111111111011010111111010

記一次OOM堆疊資訊洩漏分析過程

1、使用者反映生產訂單下不來，馬上開啟伺服器檢視gc日誌（前提是已經先排除了業務邏輯問題） tomcat配置： JAVA_OPTS=”$JAVA_OPTS -server -Xms4096m -Xmx4096m -Xss1024k -XX:PermSize=

記一次HIS系統的expdp/impdp過程中的BUG

某醫院的HIS系統做OGG，過程中impdp遇到很多問題，oracle的BUG太坑爹了！！！環境：生產庫，AIX 10.2.0.4 RAC 容災庫：linux，10.2.0.5 單機，本地磁碟儲存是H3C的IP sun儲存，平時儲存磁碟IO很高，80%左右，資料量

記一次聯通路由器劫持的分析過程

在此順便給大家普及下計算機中“劫持”這詞，劫持可以分為分很多種，有大家常常聽見的那些廣泛的也有較為狹窄較為針對性的，比如大家常說的映象劫持它其實也可以叫做程序劫持,如果它是通過DLL注入映象或者注入記憶體的話也可以叫做DLL劫持。還有一種常見的“網路劫持”，它其實也有著更加廣泛的名詞，比如修改HOSTS檔案植

記一次揪心的MySQL資料恢復過程

先說下背景，公司其中一個專案所有服務都部署在客戶的機房內，機房較小，沒有UPS。其中一個MySQL例項(單機，無主從，windows server 2008，MySQL5.6.19)存放大量的日誌資料，每天幾十G的資料，定期清除(儲存大概四個月的資料)，由於硬碟

再記一次經典Net程式的逆向過程

1.前言上次發完，有網友問了一個問題：如果不繞過編譯，而是直接編譯怎麼辦？記一次Net軟體逆向的過程：https://www.cnblogs.com/dotnetcrazy/p/10142315.html 今天就來說說：本次提供樣本：連結: https://pan.baidu.com/s/1ekYVK

誤刪除系列三：記一次有道筆記資料恢復過程

1. 環境: 三個有道雲筆記客戶端分別是windows7、iphone、MAC 2. 事件發生過程：今天早上在win7的有道雲筆記下記錄一些筆記時，出現誤刪除操作，當時我使用的是它的markdown模組進行記錄操作，剛好一個文件記錄了我一週一些學習過程的筆記，就在某一個時刻敲鍵盤時，

記一次 python3 驗證碼識別 出錯過程

相關推薦

記一次 python3 驗證碼識別出錯過程