由使用Python2引發的編碼問題的學習記錄

阿新 • • 發佈：2018-12-18

前言

最近接了做字幕的兼職，自己總結了一套效率比較高的流程，但其中有一步需要將混在一起的中文行和英文行分開，所以想到了藉助Python指令碼來解決。

本來覺得是個沒那麼複雜的問題，就是檢測某一行是否包括中文即可，不過由於對編碼問題的不熟悉，花了不少功夫。

（建議大家儘快轉用Python3，此類問題會少很多。。。）

正文

編碼溯源

1.為了處理英文字元，產生了ASCII碼。 2.為了處理中文字元，產生了GB2312。 3.為了處理各國字元，產生了Unicode。注意Unicode 只是一個符號集，它只規定了符號的二進位制程式碼，卻沒有規定這個二進位制程式碼應該如何儲存。 4.為了提高Unicode儲存和傳輸效能，產生了UTF-8，它是Unicode的一種實現形式。

UTF-8與BOM

Windows下使用UTF-8編碼預設會在檔案頭加BOM（byte order mark），它是為 UTF-16 和 UTF-32 準備的，用於標記位元組序（byte order）。

儘管 Unicode 標準允許在 UTF-8 中使用 BOM，但它並不是必要的。特別地，UTF-8 的網頁程式碼不應使用 BOM。

微軟在 UTF-8 中使用 BOM 是因為這樣可以把 UTF-8 和 ASCII 等編碼明確區分開，但這樣的檔案在 Windows 之外的作業系統裡會帶來問題。

而使用Notepad++可以將文字檔案的編碼格式轉換為無BOM的UFT-8編碼格式。

系統編碼

系統的預設編碼有所不同（這裡指控制檯顯示的編碼）：Linux預設UTF-8，Windows（簡體中文）預設GB2312。

因此直接用Windows控制檯輸出UTF-8編碼格式的中文會出現亂碼，就是因為編譯碼方式不同，導致解析錯誤。

原始碼中的編碼

Python2會將整個python指令碼中的內容當做ASCII碼去處理，因此在檔案頭部加入一行編碼宣告如：

# -*-coding:utf8-*-

這樣，Python在處理這個指令碼時，會用UTF-8的編碼去處理整個指令碼，就能夠正確的解析中文字元了。

字串中的編碼

Python2中的字串有str和Unicode兩種型別。

str型別的字串都有一定的編碼方式，如ASCII、GBK、UTF-8等等，而Unicode即為無編碼格式的計算機儲存符號。

通過encode和decode函式可以在兩者間進行轉換

可以觀察到UNICODE編碼的串輸出時在整個字串前帶一個'u'的字首，每個UNICODE符也各自含有一個'\u'的開頭。

查資料知基本漢字的UNICODE範圍在4E00-9FA5之間，簡略地使用這個範圍便足以滿足我們的需求。

參考資料

附程式碼

# -*-coding:utf8-*-

#首先需將中英文字幕檔案編碼格式修改為UFT-8無BOM編碼格式，並將其放置在所確定的路徑
#轉換結束後再將檔案修改回UFT-8編碼格式，或者不轉好像也行 ^_^

def have_Chinese(word):
    for ch in word.decode('utf-8'):
        if u'\u4e00' <= ch <= u'\u9fff':
            return True
    return False
#路徑修改為翻譯字幕所在路徑
path = "D:\\Desktop\\"
#翻譯字幕檔名
file = path+"Subtitles.txt"
#視訊題目
title = path+"Video"
with open(file,'r') as f:
    lines = f.readlines()
    Cn=[]
    Eng=[]
    for line in lines:
        if len(line) <= 8:  #這意味著空碼，包含時間碼和換行符
            Cn.append(line)
            Eng.append(line)
            continue
        if have_Chinese(line):  #行內包含中文則視為中文字幕
            Cn.append(line)
        else:
            Eng.append(line)  #否則為英文字幕
            
with open(title+'.txt','w') as res_Eng:
    for line in Eng:
        res_Eng.write(line)


with open(title+'_CN.txt','w') as res_Cn:
    for line in Cn:
        res_Cn.write(line)

字元編碼學習記錄

1、位元組 1位元組（byte）=8位元（bit）；一個位元組能表示的最大數字是2^8-1=255；一個英文字母是一個字元；一個漢字是一個字元； 2、編碼 ASCII編碼，佔1個位元組，美國使用，只有127個字元，包括大小寫英文字母、

由使用Python2引發的編碼問題的學習記錄

前言最近接了做字幕的兼職，自己總結了一套效率比較高的流程，但其中有一步需要將混在一起的中文行和英文行分開，所以想到了藉助Python指令碼來解決。本來覺得是個沒那麼複雜的問題，就是檢測某一行是否包括中文即可，不過由於對編碼問題的不熟悉，花了不少功夫。（建議大家儘快

由 Python2 和 Python3 中 socket.inet_aton() 實現不同引發的血案

err 主動 __name__ for print 別人 most ddr whole 這幾天在做一個功能實現的時候，需要把別人用 Python2.6 寫好的腳步轉成 Python3.4 實現，大部分地方轉化都沒啥問題，但是在 socket.inet_aton() 轉化的過

MyBatis 學習記錄7 一個Bug引發的思考

主題　　這次學習MyBatis的主題我想記錄一個使用起來可能會遇到,但是沒有經驗的話很不好解決的BUG,在特定情況下很容易發生. 異常 java.lang.IllegalArgumentException: Mapped Statements collection already co

夢迴編碼系列－由LD_LIBRARY_PATH引發JNI的理解

前些天在配置通過OCI的方式連線Oracle中曾進碰到一個關於“java.lang.UnsatisfiedLinkError: no XXX in java.library.path”這麼一個問題，這個問題糾結了許久才解決，解決方式參考前面的文章。趁雙休日好好的理解一下產生

Android應用基礎學習記錄

應用 ctp 例如 case 推薦都沒有變量命名規則 bytearray href 01_前言前言，了解了Android的情況。這裏也介紹一下本文。本文是記錄學習Android應用程序開發過程，視頻中使用的Android2.2版本號，我以4.2版本號為基礎，找

[QT][SQL]sq]學習記錄1_模糊搜索

學習網 cnblogs src from log 搜索數據城市 like .cn sql學習網站: http://www.w3school.com.cn/sql/index.asp 用於模糊搜索數據庫的數據語句:http://www.w3school.com.cn/

學習記錄：安裝配置自動化工具ansible

ansible學習記錄：安裝配置ansible更新日期: 2016-11-30系統環境：centos6.5本機ip ：192.168.233.123被管理機ip ：192.168.233.124—————————————————————————————————————py版本

IPProxyPool學習記錄

lib pip3 figure python3 amp library 學習多版本 not find python3下 import sqlite3 報錯： NO module named ‘_sqlite3‘ 是因為多版本ptyhon問題，需要重新編譯python 步驟

$http學習記錄

google div 好的 pca .site log 文檔方法教程火狐的網址可以直接寫文件的地址如：D:\studyprogram\wamp\www\http.html 其他的要改成服務器下的地址如 http://localhost\http.html 廢棄聲

tolua.setpeer學習記錄

lua 記錄如果進棧 get string use 輕量 peer static int tolua_bnd_setpeer(lua_State *L) { // stack: userdata, table if (!lua_isuserdata(

android adb shell and monkey 學習記錄

型號 orm -a reboot 觸摸事件 serial roc ear cpu Monkey環境： android SDK and JDK SDK目錄下的platform-tools和tools目錄要配置環境變量查看版本： ADB 的安裝這裏就

python2.7 編碼問題整理

tro 編碼方式這樣的創建不同表示 ice 文本 logs 本文轉自：http://www.cnblogs.com/fnng/p/5008884.html。不能不說，蟲師的blog文章質量非常值得借鑒，通篇讀下來，解決了許多的問題。鑒於良好的收藏習慣，轉載到此。

前端學習記錄

webkit 移除 posit settime 支持執行 rul 方法可能總結一下這幾天跟前輩學的新知識： 1.吸頂效果，普通的做法是在onscroll函數中監聽滾動距離，如果滾動超過導航條高度，則將導航條的class添加.fixed。但是ios6+設備下的瀏覽器會在

即時通信常見的幾種方式，此處只做學習記錄

維護時間最簡安裝記錄 htm websocket 雙向 new 1. 輪詢利用ajax每隔一段時間就請求一次服務器，服務器返回數據。優點：最簡單的解決方案缺點：對服務器壓力很大，浪費帶寬 2. 長輪詢利用ajax請求服務器，當有數據變化

2017.5.23 -- 學習記錄

cal 根據 stub roi post 顯示技巧每日記錄學習目錄：　　1.ViewStub Android ：不占空間和性能的根據不同情況顯示不同的布局。　　2.android 中的merge標簽：在include布局中的根布局可以使用這個merge，系統遇

Python學習記錄-socket編程

pythonPython學習記錄-socket編程學習 python socketPython學習記錄-socket編程1. OSI七層模型詳解2. Python socket3. socket()函數4. TCP socket通信流程5. Python Internet 模塊1. OSI七層模型詳解以上圖見

2017-5-29學習記錄——WebApi（1）

ora 必須 eache 配置 person span eve gen 流行曾經我一直認為Web服務器的Api使用ashx或ASP.NET MVC中返回JsonResult來實現的。當我第一次接觸WCF的時候，有同學告訴我目前比較流行WebApi和WebSocket了，

由易到難學習遞歸的精華

rec 阿裏 afn sum 全局變量能力 while clas -m 以下是收集的一些遞歸實現的小算法，勤加練習，相信每個人都能對簡單的遞歸駕馭自如！從1加到n的一種遞歸的簡潔寫法 int AddFrom1ToN_Recursive(int n) { retur

Python學習記錄day5

process its 定義 return 不能自己多層裝飾器環比方式 1.多層裝飾器多層裝飾器的原理是，裝飾器裝飾函數後，其實也是一個函數，這樣又可以被裝飾器裝飾。編譯是從下至上進行的，執行時是從上至下進行。 #!/usr/bin/env python #

由使用Python2引發的編碼問題的學習記錄

前言

正文

編碼溯源

UTF-8與BOM

系統編碼

原始碼中的編碼

字串中的編碼

參考資料

附程式碼

相關推薦