Google開源OCR專案Tesseract訓練(自己訓練的記錄,未成功)

阿新 • • 發佈：2019-01-16

影象處理開發資料、影象處理開發需求、影象處理接私活掙零花錢，可以搜尋公眾號"qxsf321"，並關注！
影象處理開發資料、影象處理開發需求、影象處理接私活掙零花錢，可以搜尋公眾號"qxsf321"，並關注！
影象處理開發資料、影象處理開發需求、影象處理接私活掙零花錢，可以搜尋公眾號"qxsf321"，並關注！

一、

準備若干張待訓練圖片（我這裡準備了10張），並全部轉化為tif格式，我這裡使用的轉換軟體是iSee，下載連結：http://pan.baidu.com/s/1pLrPmDd，具體使用方法如下圖所示：

二、下載jTessBoxEditor-1.0（下載連結 http://pan.baidu.com/s/1geRbgQ3

），並使用這個工具把上面的10張待訓練的tif圖片合成為一張tif圖片，合成的tif圖片取名為orderNo04.tif。

注意：要執行jTessBoxEditor-1.0，需要安裝Java Runtime Environment，版本為6.0以上，這裡給大家“Java Runtime Environment-6.0.450.exe”的下載連結：http://pan.baidu.com/s/1nuQOUpV

相關操作截圖如下：

三、把orderNo04.tif複製到Tesseract的安裝目錄Tesseract-OCR下。

四、在CMD視窗下執行下面的語句：

tesseract.exe orderNo04.tif orderNo04 batch.nochop makebox

上面語句執行後生成了orderNo04.box檔案，裡面儲存了tesseract.exe的識別結果，包括每個識別區域的座標，區域大小及識別出來的字元等...

若要用已經訓練好的資料庫來生成box檔案，比如用中文識別資料庫chi_tra.traineddata，就執行下面的語句：

tesseract.exe orderNo04.tif orderNo04 -l chi_tra batch.nochop makebox

五、利用jTessBoxEditor-1.0編輯box檔案，如下圖所示：

六、修改完成後，執行下面的語句：

tesseract.exe orderNo4.tif orderNo04 nobatch box.train

我就卡在這一部了，不管作何種嘗試，就報下面的錯誤：

Cannot open input file: orderNo4.tif

明明orderNo4.tif是在資料夾Tesseract-OCR下面的，卻說不能開啟這個語言檔案，真是夠了！這個問題搞了兩天，也搞不定，只好作罷，暫時放在這裡，但願以後能解決吧！

Google開源OCR專案Tesseract訓練(自己訓練的記錄,未成功)

Google開源OCR專案Tesseract訓練(自己訓練的記錄,未成功)

OCR開源庫Tesseract漢字識別訓練

Tesseract-OCR的簡單使用與訓練

halcon OCR識別，訓練自己的OCR

tensorflow專案學習(1)——訓練自己的資料集並進行物體檢測(object detection)

ocr tesseract 3.4訓練記錄

目標檢測（Google object_detection） API 上訓練自己的資料集

在谷歌目標檢測（Google object_detection） API 上訓練自己的資料集

嘗試用google colab訓練自己的神經網路（二）

Tesseract-OCR-v5.0中文識別,訓練自定義字型檔,提高圖片的識別效果

FastRCNN 訓練自己數據集 (1編譯配置)

tensorflowxun訓練自己的數據集之從tfrecords讀取數據

目標檢測算法SSD在window環境下GPU配置訓練自己的數據集

【Tensorflow系列】使用Inception_resnet_v2訓練自己的數據集並用Tensorboard監控

可變卷積Deforable ConvNet 遷移訓練自己的數據集 MXNet框架 GPU版

YOLOv3訓練自己的數據集（還在學習中）

windows10 conda2 使用caffe訓練訓練自己的數據

yoloV3一步步訓練自己的數據

YOLOv3訓練自己的數據

[2] SSD配置+訓練VOC0712+訓練自己的資料集

Google開源OCR專案Tesseract訓練(自己訓練的記錄,未成功)

相關推薦