python--編碼與解碼

阿新 • • 發佈：2020-09-04

背景

在使用python過程中,經常會遇到這種進位制資料 b'\xe4\xb8\xad\xe6\x96\x87',看起來會一頭霧水
本篇部落格介紹python如何處理這些編碼

編碼

計算機資訊的表示方式只有0,1
將影象,語言文字,音視訊等轉換成二進位制儲存在計算機,稱為編碼
將0,1組合並賦予不同的含義,且賦予不同的儲存空間的方式又稱為編碼標準
不同國家因語言不同,有不同的編碼標準
Unicode 為國際統一編碼,即將世界所有字元都分配了一個唯一的數字編號
主流的編碼標準還有 ASCII、GB2312、GBK、GB18030, GB2312、GBK、GB18030 為漢字字元編碼方案的國家標準。

預設編碼

python2預設編碼為 ASCII,python3預設編碼為 UTF-8
windows預設編碼為 GBK,linux預設編碼為 UTF-8
windows在儲存和讀取檔案均使用 GBK編碼,可以在儲存檔案時指定編碼 encoding='utf-8'

python編碼轉換

中間碼: 通常用unicode作為中間編碼,先將其他編碼的字串解碼(decode)成unicode,再從unicode編碼(encode)成另一種編碼格式
編碼(encode): 將unicode的字串轉換成二進位制資料的過程和規則
解碼(decode): 將二進位制資料轉換為對應的Unicode字串
encode：str --> bytes

decode：bytes --> str

s = '中國'
print(s.encode('utf-8'))
print(s.encode('utf-8').decode('utf-8'))
>>>
b'\xe4\xb8\xad\xe5\x9b\xbd'
中國

總結

decode實質是把二進位制資料(bytes)轉化成人看的懂得英文或者漢字
python3預設編碼為 UTF-8

python--編碼與解碼

背景在使用python過程中,經常會遇到這種進位制資料 b\'\\xe4\\xb8\\xad\\xe6\\x96\\x87\',看起來會一頭霧水

Python使用urllib模組對URL網址中的中文編碼與解碼例項詳解

URL網址連結中的中文編碼說明中文的gbk(GB2312)編碼：一個漢字對應兩組%xx，即%xx%xx

python中字串的編碼與解碼詳析

1. 常用的編碼 ASCII:只能表示一些字母，數字和特殊的字元，佔一個位元組 GBK：國家簡體中文字符集和繁體字符集，相容ASCII，佔兩個位元組

python unicode、utf-8、gbk編碼與解碼展示

encode()：編碼 decode()：解碼 repr()：返回一個可以用來表示物件的可列印的字串 [oracle@10-248-57-246 ~]$ locale

【網路爬蟲學習】第一個Python爬蟲程式 & 編碼與解碼詳解 & Pythonの實現

本節編寫一個最簡單的爬蟲程式，作為學習 Python 爬蟲前的開胃小菜。下面使用 Python 內建的 urllib 庫獲取網頁的 html 資訊。注意，urllib 庫屬於 Python 的標準庫模組，無須單獨安裝，它是 Python 爬蟲的常用模組

Python 中 base64 編碼與解碼

base64 是經常使用的一種加密方式，在 Python 中有專門的庫支援。本文主要介紹在 Python2 和 Python3 中的使用區別：

Base64 編碼與解碼詳解

Base64 是基於 64 個可列印字元 A-Z、a-z、0-9、+、/ 來表示二進位制資料的表示方法，常用於資料在網路中的傳輸。本篇將分別介紹其編碼、解碼以及實際運用。

Vue文字轉編碼與解碼

最近用到的，文字輸入框是一個元件，在後臺管理系統中儲存，關鍵程式碼如下：

HeX編碼與解碼

轉載自：https://blog.csdn.net/yu_yuan_1314/article/details/12705237 一、Hex編碼簡介 Hex 全稱是Intel HEX。Hex檔案是由一行行符合Intel HEX檔案格式的文字所構成的ASCII文字檔案。在Intel HEX檔案中，每一行包