tesseract編譯各種 “錕斤拷” 等中文亂碼編譯失敗問題

阿新 • • 發佈：2017-11-10

博客 ocr 創建源文件 nbsp 缺省字符 pad 問題

編譯tesseract - ocr時各種不通過也很疑惑，完全按照官方指導來的啊

首先以為是vs的編碼問題，隨切換選項-切換Unicode或多編碼字符集，但仍無效。

定位到亂碼的文件，用notepad++ 打開，查看編碼，是“”“以UTF-8無BOM格式編碼”，切換成utf-8編碼，將所有有中文的編碼都切換了（還好只有兩個），然後編譯既然成功了。

然後新建了一個工程，一路默認創建。打開默認創建的cpp文件，是ANSI編碼，沒有任何文件頭信息。可能是vs對於無bom的utf8不認識吧，默認把它當成了ANSI編碼，所以造成這個問題。

看到一篇博客說vs2008，創建的C++源文件的缺省編碼方式為CP936，即GB2312

tesseract編譯各種 “錕斤拷” 等中文亂碼編譯失敗問題

博客 ocr 創建源文件 nbsp 缺省字符 pad 問題編譯tesseract - ocr時各種不通過也很疑惑，完全按照官方指導來的啊首先以為是vs的編碼問題，隨切換選項-切換Unicode或多編碼字符集，但仍無效。定位到亂碼的文件，用notepad++ 打

tesseract編譯各種 “錕斤拷” 等中文亂碼 編譯失敗問題