Python中Unicode字串

阿新 • • 發佈：2018-12-18

字串還有一個編碼問題。
因為計算機只能處理數字，如果要處理文字，就必須先把文字轉換為數字才能處理。最早的計算機在設計時採用8個位元（bit）作為一個位元組（byte），所以，一個位元組能表示的最大的整數就是255（二進位制11111111=十進位制255），0 - 255被用來表示大小寫英文字母、數字和一些符號，這個編碼表被稱為ASCII編碼，比如大寫字母 A 的編碼是65，小寫字母 z 的編碼是122。
如果要表示中文，顯然一個位元組是不夠的，至少需要兩個位元組，而且還不能和ASCII編碼衝突，所以，中國製定了GB2312編碼，用來把中文編進去。
類似的，日文和韓文等其他語言也有這個問題。為了統一所有文字的編碼，Unicode應運而生。Unicode把所有語言都統一到一套編碼裡，這樣就不會再有亂碼問題了。
Unicode通常用兩個位元組表示一個字元，原有的英文編碼從單位元組變成雙位元組，只需要把高位元組全部填為0就可以。
因為Python的誕生比Unicode標準釋出的時間還要早，所以最早的Python只支援ASCII編碼，普通的字串'ABC'在Python內部都是ASCII編碼的。
Python在後來添加了對Unicode的支援，以Unicode表示的字串用u'...'表示，比如：
print u'中文'
中文
注意: 不加 u ，中文就不能正常顯示。
Unicode字串除了多了一個 u 之外，與普通字串沒啥區別，轉義字元和多行表示法仍然有效：
轉義：
u'中文\n日文\n韓文'
多行：
u'''第一行
第二行'''
raw+多行：
ur'''Python的Unicode字串支援"中文",
"日文",
"韓文"等多種語言'''
如果中文字串在Python環境下遇到 UnicodeDecodeError，這是因為.py檔案儲存的格式有問題。可以在第一行添加註釋
# -*- coding: utf-8 -*-
目的是告訴Python直譯器，用UTF-8編碼讀取原始碼。然後用Notepad++ 另存為... 並選擇UTF-8格式儲存。

Python中Unicode字串----初識Python

Python中Unicode字串字串還有一個編碼問題。因為計算機只能處理數字，如果要處理文字，就必須先把文字轉換為數字才能處理。最早的計算機在設計時採用8個位元（bit）作為一個位元組（byte），所以，一個位元組能表示的最大的整數就是255（二進位制11111111

Python中Unicode字串

字串還有一個編碼問題。因為計算機只能處理數字，如果要處理文字，就必須先把文字轉換為數字才能處理。最早的計算機在設計時採用8個位元（bit）作為一個位元組（byte），所以，一個位元組能表示的最大的整數

python中unicode字串字首u

SyntaxError: invalid syntax 注意：（1）當檔案使用utf-8編碼時：非unicode字元中一個漢字的長度是3，unicode一個漢字長度是1；（2）當檔案使用gb2312 時，非unicode字元中一個漢字的長度是2，unicode一個漢字長度是1；見下

1-7 Python中Unicode字串

字串還有一個編碼問題。因為計算機只能處理數字，如果要處理文字，就必須先把文字轉換為數字才能處理。最早的計算機在設計時採用8個位元（bit）作為一個位元組（byte），所以，一個位元組能表示的最大的整數就是255（二進位制11111111=十進位制255），0 - 255被用來表示大小寫英文字母

Python中unicode編碼的字串和其他格式的字串之間進行轉換

1.1. 問題 Problem You need to deal with data that doesn't fit in the ASCII character set. 你需要處理不適合用ASCII字符集表示的資料. 1.2. 解決 Solution

python中的字串（str）操作

字串是python中資料型別。一般就單引號（‘’）或雙引號（“”）引起來的內容就是字串。例如：下面兩個都是定義字串 str1 = "hello world" str2 = 'Hello World'　 1、索引：就是下標，從0開始。預設是從左往右數；當索引為負數時，表示從右往左數。通過索引得

解決python中因為字串編碼導致的錯誤

python程式設計例項： 1. 將抓取的網站資料，儲存到excel表格中，在sheet.write()函式時，報錯如下： UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 0: ordinal not

Python中去除字串中空格的方法

Python中去除字串中指定字元或者空格的方法有幾種： str.strip() //該方法用於去除字串開頭和結尾的指定字元或字串（預設為空格或換行符） str.lstrip() //該方法用於截掉字串左邊的空格或指定字元 str.rstrip() //該方法用於截掉字串右邊的空格或指定字元

[詳解]Python中的字串的strip(),lstrip(),rstrip()的含義

轉自：【詳解】python中字串的strip()，lstrip()，rstrip()的含義【問】 Hi Crifan, 我在http://bbs.csdn.net/topics/390361293 裡看到抓取網易公開課的指令碼,我看了下,感覺還比較簡單,但是有一處不是很理

python中的字串切片操作

Sequence[left:right:step]： 1，若step為正，則表示從索引left開始取，直到索引right為止，但不包括索引right. 如果left >= right,結果為空；如果left預設，預設為0；如果right預設，預設為len(Sequence)

python中的字串以及內建方法

字串的操作方法 + 字串連線操作 str1 = "大金鍊子" str2 = "小手錶" str3 = str1 + str2 print(str3) * 字串複製操作 str1 = "大金鍊子" str2 = "小手錶" str3 = str1*3

python中的字串常量，是否支援通過下標的方式賦值

說明：　　今天在看python，通過下標獲取字串常量的字元，在想是否可以通過下標的方式賦值。操作： 1.對字串下標賦值 >>> text='python' >>> text[2] = 'j' Traceback (most recent call la

Python中String字串操作

關於字串的一些操作方法： ascii：字母，數字，特殊字元：1個位元組，8位 Unicode：16位兩個位元組升級 32 位四個位元組 utf-8：最少一個位元組 8位表示。英文字母 8位 1個位

Python中的字串string型別基礎

字串基礎定義字串屬於python中的一個序列物件（sequence object），一串字元為元素的序列物件。 S = 'hello world!' S = "hello world!" S = '''hello world!''' 訪問

Python中的字串運算

上次說到Python的字串，當然除了一些字串的概念呢，比較常用的就是字串的運算了，我們都見過數字的運算，其實字串的運算也不復雜。跟數字一樣，字串也可以進行加法運算以及乘法運算（需要提醒的是字串與字串是不能相乘的，會報錯），具體的表現形式就如圖所示。除此之外，我們還

Python中raw字串與多行字串

如果一個字串包含很多需要轉義的字元，對每一個字元都進行轉義會很麻煩。為了避免這種情況，我們可以在字串前面加個字首 r ，表示這是一個 raw 字串，裡面的字元就不需要轉義了。例如： r'\(~_~)/

python2.x中unicode字串轉化為str字串

首先理解編碼encode與解碼decode 很多介面返回的資料都是unicode字串，但是我們需要轉化成str，這樣才能進行json.loads()的反序列化操作。（雖然經過我證實，有時候unicode字串也是可以直接進行反序列化操作的，但是老師說這樣更嚴謹？）下面是將

Python中判斷字串是不是漢字

isalpha()是Python中用來判斷是否為字母的函式,但是當字元為漢字時函式依然返回YES,在開發中可能遇到判斷一個字元是否是漢字的問題,我們可以根據ASCII判斷字元是否為漢字 def isChineseWord(string): if string.isa

Python中關於字串的各種方法

關於capitalize的用法。輸出結果首字母大寫 test = ‘johnny’ v = test.capitalize() print(v) C:\Python36\python.exe C:/test001/test001/test001.py J

python中在字串的指定位置插入一個字元

# 在字串的自定位置插入字元 # 因為python中str是不可變的變數,所以藉助list來完成 str_i = "20081231" list_i = list(i) # str -> list print(list_i) list_i.insert(4, '/') #

Python中Unicode字串

相關推薦