Python生成漢字字型檔文字，以及轉換為文字圖片

阿新 • • 發佈：2019-01-25

筆者小白在收集印刷體漢字的深度學習訓練集的時候，一開始就遇到的了一個十分棘手的問題，就是如何獲取神經網路的訓練集資料。通過上網搜素，筆者沒有找到可用的現成的可下載的漢字的訓練集，於是筆者採用了程式碼自建漢字的訓練集資料。

這裡採用的是python編寫程式，需要import 的python庫請提前安裝。

那麼，首先如何用python輸出漢字字型檔的文字？

筆者查到在計算機中漢字編碼範圍是0x4E00到0x9FA5，利用unichr（）可以將十六進位制的編碼轉成人類可讀的字。

這裡擴充套件一下在python庫中什麼是unichr（），以及什麼是chr（）和ord（）。

chr( )函式用一個範圍在range（256）內的（就是0～255）整數作引數，返回一個對應的字元。unichr( )跟它一樣，只不過返回的是Unicode字元，這個從Python 2.0才加入的unichr( )的引數範圍依賴於你的Python是如何被編譯的。如果是配置為USC2的Unicode，那麼它的允許範圍就是range（65536）或0x0000-0xFFFF；如果配置為UCS4，那麼這個值應該是range（1114112）或0x000000-0x110000。如果提供的引數不在允許的範圍內，則會報一個ValueError的異常。
ord( )函式是chr( )函式（對於8位的ASCII字串）或unichr( )函式（對於Unicode物件）的配對函式，它以一個字元（長度為1的字串）作為引數，返回對應的ASCII數值，或者Unicode數值，如果所給的Unicode字元超出了你的Python定義範圍，則會引發一個TypeError的異常。

接下來就是把unicode編碼的字寫入檔案呢，如果直接用open()的話，會提示UnicodeEncodeError: ‘ascii’ codec can’t encode character u’\u4e00’ in position 0: ordinal not in range(128)

這裡就是涉及到python讀寫檔案時候的兩種方式了，一種是open（），還一種是codecs.open( )。

對於open（）這個python的內建函式來說，開啟檔案的方式一般為：

f=open(file_name,access_mode = 'r',buffering = -1)。

file_name就是檔案的路徑加檔名字，不加路徑則檔案會存放在python程式的路徑下，
access_mode就是操作檔案的模式，主要有r,w,rb，wb等，細節網上一大堆,buffering = -1是用於指示訪問檔案所採用的快取方式。0表示不快取；1表示只快取一行，n代表快取n行。如果不提供或為負數，則代表使用系統預設的快取機制。

>>> fr = open('test1.txt','wb')
>>> line1 = "我是誰"
>>> fr.write(line1)

開啟以後就是寫和讀的操作。但是用open方法開啟會有一些問題。open開啟檔案只能寫入str型別,不管字串是什麼編碼方式。所以對於寫入檔案的資料的編碼不統一的時候，需要用到codecs.open（）。這種方法可以指定一個編碼開啟檔案，使用這個方法開啟的檔案讀取返回的將是unicode。寫入時，如果引數是unicode，則使用open()時指定的編碼進行編碼後寫入；如果是str，則先根據原始碼檔案宣告的字元編碼，解碼成unicode後再進行前述操作。相對內建的open()來說，這個方法比較不容易在編碼上出現問題。

>>> import codecs
>>> line2 = u'我是誰'
>>> fw = codecs.open('test1.txt','wb','utf-8')
>>> fw.write(line2)

這裡是將漢字字型檔的文字寫出到文字檔案中，程式碼如下：

import codecs
start,end = (0x4E00, 0x9FA5)  #漢字編碼的範圍
with codecs.open("chinese.txt", "wb", encoding="utf-8") as f:
 for codepoint in range(int(start),int(end)):
  f.write(unichr(codepoint))  #寫出漢字

在同目錄檔案下，生成漢字字型檔的chinese.txt檔案：

這裡寫圖片描述

接下來就是把漢字字型檔的字一個個儲存成圖片，這裡需要pip install pygame的庫。
pygame可以將文字渲染到圖片上儲存。

程式碼如下：

#encoding: utf-8
import os
import pygame

chinese_dir = 'chinese'
if not os.path.exists(chinese_dir):
    os.mkdir(chinese_dir)

pygame.init()
start,end = (0x4E00, 0x9FA5) # 漢字編碼範圍
for codepoint in range(int(start), int(end)):
    word = unichr(codepoint)
    font = pygame.font.Font("msyh.ttc", 64)
    # 當前目錄下要有微軟雅黑的字型檔案msyh.ttc,或者去c:\Windows\Fonts目錄下找
    # 64是生成漢字的字型大小
    rtext = font.render(word, True, (0, 0, 0), (255, 255, 255))
    pygame.image.save(rtext, os.path.join(chinese_dir, word + ".png"))

這裡是在chinese資料夾裡面生成的文字圖片，字型是黑體，然後再在個基礎上可以繼續自制漢字識別的訓練集了。

這裡寫圖片描述

Python生成漢字字型檔文字，以及轉換為文字圖片

Python生成漢字字型檔文字，以及轉換為文字圖片

python正則表達式，以及應用[下載圖片]

python tkinter GUI繪制，以及點擊更新顯示圖片

Python變數和資料型別，型別轉換

python 輸入一個字符，是小寫轉換為大寫，大寫轉換為小寫，其他字符原樣輸出

jupyter notebook下.ipynb格式執行SSD程式碼正常，但是轉換為.py格式在終端用python 指令執行就報錯，請問這是為什麼？

logback日誌的使用，每天生成一個日誌檔案，以及error和其他級別日誌的分離

eclipse如何把java程式碼，打包成jar檔案以及轉換為exe可執行檔案

eclipse -- 手把手教你如何把java程式碼，打包成jar檔案以及轉換為exe可執行檔案

python的轉義字符，以及字符串輸出轉義字符

使用JDK生成android-apk證書，以及給未簽名的apk簽名

重置$.messager.confirm 彈出框的高度，以及顯示的文字

使用python進行漢字與二進位制之間的轉換

Eclipse根據wsdl檔案自動生成webservice client圖解，以及呼叫示例，附測試專案

動態獲取以太坊，以太經典實時價格介面，以及轉換匯率（區塊鏈）

python中的雙層迴圈，以及函式

python @classmethod 和 @staticmethod區別，以及類中方法引數cls和self的區別

python 如何更改工作目錄，以及如何更改spyder起始工作目錄

【轉載】以此獻給所有OIer，以及所有競賽生，以及所有為夢想而不顧一切的人。

Python Requests post並將得到結果轉換為json

Python生成漢字字型檔文字，以及轉換為文字圖片

相關推薦