1. 程式人生 > >python處理utf-16 le格式中文文字

python處理utf-16 le格式中文文字

python做中文什麼的,編碼一向很頭疼,當然,比c++神馬的強多了

最近收到的一批文字資料是用utf-16-LE編碼格式的,這個格式轉換成utf8然後存入mongoDB是必須的步驟

找了些資料,分享一下轉碼方法

python有個包codecs

# 解碼utf-16-LE
import codecs

filename = '../doc/chinanews/20140331/180447380.cns'

# utf_16_le
my_table = open(filename, 'r')

decoder = codecs.getdecoder('utf_16_le')

content = my_table.read() 
print decoder(content)[0]


打印出的是解碼內容

列印decoder(content)[1]估計是這一段內容的長度,這個decoder出的內容是個tuple格式的二維元組