python複習筆記（四）

阿新 • • 發佈：2018-11-07

此筆記摘錄於廖雪峰先生的教程，感謝廖先生的無私分享，特此致敬！

字串和編碼

字元編碼

字串也是一種資料型別，但是，字串比較特殊的是還有一個編碼問題。
因為計算機只能處理數字，如果要處理文字，就必須先把文字轉換為數字才能處理。最早的計算機在設計時採用8個位元（bit）作為一個位元組（byte），所以，一個位元組能表示的最大的整數就是255（二進位制11111111=十進位制255），如果要表示更大的整數，就必須用更多的位元組。
ASCII編碼和Unicode編碼的區別
- ASCII編碼是1個位元組，而Unicode編碼通常是2個位元組。
- 字母A用ASCII編碼是十進位制的65，二進位制的01000001。
- 字元0用ASCII編碼是十進位制的48，二進位制的00110000，字元’0’和整數0是不同的。
- 漢字中已經超出了ASCII編碼的範圍，用Unicode編碼是十進位制的20013，二進位制的01001110 00101101。
- 如果把ASCII編碼的A用Unicode編碼，只需要在前面補0就可以，因此，A的Unicode編碼是00000000 01000001。
UTF-8編碼把一個Unicode字元根據不同的數字大小編碼成1-6個位元組，常用的英文字母被編碼成1個位元組，漢字通常是3個位元組，只有很生僻的字元才會被編碼成4-6個位元組。如果你要傳輸的文字包含大量英文字元，用UTF-8編碼就能節省空間。UTF-8編碼有一個額外的好處，就是ASCII編碼實際上可以被看成是UTF-8編碼的一部分，所以，大量只支援ASCII編碼的歷史遺留軟體可以在UTF-8編碼下繼續工作。
現在計算機系統通用的字元編碼工作方式：
- 在計算機記憶體中，統一使用Unicode編碼，當需要儲存到硬碟或者需要傳輸的時候，就轉換為UTF-8編碼。
- 用記事本編輯的時候，從檔案讀取的UTF-8字元被轉換為Unicode字元到記憶體裡，編輯完成後，儲存的時候再把Unicode轉換為UTF-8儲存到檔案。
瀏覽網頁的時候，伺服器會把動態生成的Unicode內容轉換為UTF-8再傳輸到瀏覽器，所以你看到很多網頁的原始碼上會有類似的資訊，表示該網頁正是用的UTF-8編碼。

Python的字串

在最新的Python 3版本中，字串是以Unicode編碼的，也就是說，Python的字串支援多語言。
對於單個字元的編碼，Python提供了ord()函式獲取字元的整數表示，chr()函式把編碼轉換為對應的字元。

>>> ord('A')
65
>>> ord('中')
20013
>>> chr(66)
'B'
>>> chr(25991)
'文'

由於Python的字串型別是str，在記憶體中以Unicode表示，一個字元對應若干個位元組。如果要在網路上傳輸，或者儲存到磁碟上，就需要把str變為以位元組為單位的bytes，Python對bytes型別的資料用帶b字首的單引號或雙引號表示。
純英文的str可以用ASCII編碼為bytes，內容是一樣的，含有中文的str可以用UTF-8編碼為bytes。含有中文的str無法用ASCII編碼，因為中文編碼的範圍超過了ASCII編碼的範圍，Python會報錯。在bytes中，無法顯示為ASCII字元的位元組，用\x##顯示。
如果我們從網路或磁碟上讀取了位元組流，那麼讀到的資料就是bytes。要把bytes變為str，就需要用decode()方法。

>>> b'ABC'.decode('ascii')
'ABC'
>>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
'中文'

如果bytes中包含無法解碼的位元組，decode()方法會報錯。

>>> b'\xe4\xb8\xad\xff'.decode('utf-8')
Traceback (most recent call last):
  ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 3: invalid start byte

如果bytes中只有一小部分無效的位元組，可以傳入errors='ignore’忽略錯誤的位元組。

>>> b'\xe4\xb8\xad\xff'.decode('utf-8', errors='ignore')
'中'

要計算str包含多少個字元，可以用len()函式，len()函式計算的是str的字元數，如果換成bytes，len()函式就計算位元組數。

>>> len('ABC')
3
>>> len('中文')
2
>>> len(b'ABC')
3
>>> len(b'\xe4\xb8\xad\xe6\x96\x87')
6
>>> len('中文'.encode('utf-8'))
6

在操作字串時，我們經常遇到str和bytes的互相轉換。為了避免亂碼問題，應當始終堅持使用UTF-8編碼對str和bytes進行轉換。
由於Python原始碼也是一個文字檔案，所以，當你的原始碼中包含中文的時候，在儲存原始碼時，就需要務必指定儲存為UTF-8編碼。
- 當Python直譯器讀取原始碼時，為了讓它按UTF-8編碼讀取，我們通常在檔案開頭寫上這兩行：
- 第一行註釋是為了告訴Linux/OS X系統，這是一個Python可執行程式，Windows系統會忽略這個註釋；
- 第二行註釋是為了告訴Python直譯器，按照UTF-8編碼讀取原始碼，否則，你在原始碼中寫的中文輸出可能會有亂碼。
```
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
```

格式化

在Python中，採用的格式化方式和C語言是一致的，用%實現，在字串內部，%s表示用字串替換，%d表示用整數替換，有幾個%?佔位符，後面就跟幾個變數或者值，順序要對應好。如果只有一個%?，括號可以省略。

>>> 'Hello, %s' % 'world'
'Hello, world'
>>> 'Hi, %s, you have $%d.' % ('Michael', 1000000)
'Hi, Michael, you have $1000000.'

常見的佔位符
- %d：整數。
- %f ：浮點數。
- %s：字串。
- %x：十六進位制整數。
- 格式化整數和浮點數還可以指定是否補0和整數與小數的位數。
如果你不太確定應該用什麼，%s永遠起作用，它會把任何資料型別轉換為字串。
有些時候，字串裡面的%是一個普通字元怎麼辦？這個時候就需要轉義，用%%來表示一個%。

python複習筆記（四）

此筆記摘錄於廖雪峰先生的教程，感謝廖先生的無私分享，特此致敬！字串和編碼字元編碼字串也是一種資料型別，但是，字串比較特殊的是還有一個編碼問題。因為計算機只能處理數字，如果要處理文字，就必須先把文字轉換為數字才能處理。最早的計算機在設計時採用

Python學習筆記（四）列表生成式_生成器

rec triangle 小寫 ont 無限 end clas 普通執行過程筆記摘抄來自：https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431

python學習筆記（四）-數據類型

rand 兩個 urn 浪費 line 平年 randint .com .cn 0. 在 Python 中的數據類型詳解 http://www.cnblogs.com/scios/p/8026576.html 1. 為什麽布爾類型(bool)的 True 和 False 分

python學習筆記（四）字符串及字符串操作

默認小寫字母是不是 swap git 查找字符英文去掉 title 字符串　　字符串可以存任意類型的字符串，比如名字，一句話等等。字符串還有很多內置方法，對字符串進行操作，常用的方法如下： 1 name1=‘hello world‘ 2 print(nam

day3-python學習筆記（四）

end tar upper date update size upd sdi reat 字符串方法 #字符串這些方法都不會改變原來字符串的值name = ‘beSTtest‘# new_name = name.strip()#默認是去掉空格和換行符# new_name =

Boost Python學習筆記（四）

xtra public string 轉換 TP 簡單實現 amp dir rst 你將學到什麽在Python中調用C++代碼時的傳參問題基礎類型 Python的字符串是常量，所以C++函數參數中的std::string &必須為const 修改源文件（

python學習筆記（四）

9.png fib AS 情況一個命名文檔字符串可選交互 break 語句和 C 中的類似，用於跳出最近的一級 for 或 while 循環。循環可以有一個 else 子句；它在循環叠代完整個列表（對於 for ）或執行條件為 false （對於 while）時

python複習筆記（三）

此筆記摘錄於廖雪峰先生的教程，感謝廖先生的無私分享，特此致敬！資料型別和變數資料型別計算機能處理的遠不止數值，還可以處理文字、圖形、音訊、視訊、網頁等各種各樣的資料，不同的資料，需要定義不同的資料型別。在Python中，能夠直接處理的資料型

python複習筆記（二）

此筆記摘錄於廖雪峰先生的教程，感謝廖先生的無私分享，特此致敬！第一個Python程式命令列模式在Windows開始選單選擇“命令提示符”（cmd），就進入到命令列模式，它的提示符類似C:>： Python互動

Python 學習筆記（四）[函式進階]

異常異常捕獲 try: myfile = open('1.txt') except Exception: print('開啟檔案錯誤') else: print('開啟檔案') myfile.close() finally: print('開啟檔案結束')

python複習筆記（一）

當你用一種語言開始作真正的軟體開發時，你除了編寫程式碼外，還需要很多基本的已經寫好的現成的東西，來幫助你加快開發進度。高階程式語言通常都會提供一個比較完善的基礎程式碼庫，讓你能直接呼叫。Python就為我們提供了非常完善的基礎程式碼庫，覆蓋了網路、檔案、GUI、資料庫、文字等大量內容，被形象地稱作“內建電池

python學習筆記（四）：核心模組方法

核心模組1、__builtin__模組：一、數學運算類abs(x) 求絕對值 1、引數可以是整型，也可以是複數 2、若引數是複數，則返回複數的模 complex([real[, imag]]) 建立一個複數 divmod(a, b) 分別取商和餘數注意：整型

Head First Python 讀書筆記（四）

第六章：儲存和管理資料開啟，處理，關閉檔案開啟一個檔案 todos = open('todos.txt','a')，a表示以追加的模式開啟一個檔案，返回一個檔案流（物件）賦給變數todos 寫入資料 print('this is cat',fi

Python複習筆記（一）高階變數型別

目標列表元組字典字串公共方法變數高階 01. 列表 02. 元組 03. 字典 04. 字串 1）判斷型別 - 9 2) 查詢和替換 - 7 3) 大小寫轉換

Python複習筆記（二）變數進階

02. 可變和不可變型別不可變型別，記憶體中的資料不允許被修改：數字型別 int , bool , float , complex , long(2.x) 字串 str 元組 tuple 可變型別，記憶體中的資料可以被修改：

Python複習筆記（三）函式進階

問題 1：在函式內部，針對引數使用賦值語句，會不會影響呼叫函式時傳遞的實參變數？ —— 不會！無論傳遞的引數是可變還是不可變只要針對引數使用賦值語句，會在函式內部修改區域性變數的引用，不會影響到外部變數的引用問題 2：如果傳遞的引數是可

深度學習模型調參-基於keras的python學習筆記（四）

版權宣告：本文為博主原創文章，未經博主允許不得轉載。 https://blog.csdn.net/weixin_44474718/article/details/86250535 適用於少量資料的實驗是非常有效的方法。 from keras.models import Sequent

我的Python學習筆記（四）：動態新增屬性和方法

一、動態語言相關概念 1.1 動態語言在執行時程式碼可以根據某些條件改變自身結構可以在執行時引進新的函式、物件、甚至程式碼，可以刪除已有的函式等其他結構上的變化常見的動態語言：Object-C、C#、JavaScript、PHP、Python、Erlang 1.2 動態型別語言在執行期間檢查資料

Python學習筆記（四）——高階特性

1, 1, 2, 3, 5, 8, 13, 21, 34, ... 斐波拉契數列用列表生成式寫不出來，但是，用函式把它打印出來卻很容易： def fib(max): n, a, b = 0, 0, 1 while n < max: print(b)

OpenCV Python 學習筆記（四）影象混合

首先介紹影象的混合加權函式 addWeighted 函式原型： addWeighted(src1, alpha, src2, beta, gamma[, dst[, dtype]]) -> ds

python複習筆記（四）

此筆記摘錄於廖雪峰先生的教程，感謝廖先生的無私分享，特此致敬！

字串和編碼

字元編碼

Python的字串

格式化

相關推薦