再談編碼 decode和encode

阿新 • • 發佈：2018-12-03

1. ascii. 有: 數字, 字母, 特殊字元. 8bit 1byte 128 最前面是0
2. gbk. 包含: ascii, 中文(主要), 日文, 韓文, 繁體文字. 16bit, 2byte.
3. unicode. 包含gbk,ascii,big5... 32bit, 4byte
4. utf-8. 可變長度的unicode.
1. 英文: 8bit,1byte
2. 歐洲文字: 16bit 2byte
3. 中文: 24bit 3byte
不同的編碼之間不能隨意轉換. 中國人gbk和德國人utf-8罵想要溝通必須通過英文(unicode)(媒介)

在python3中. 預設的編碼是unicode,我們的字串就是unicode
在python2中. 預設的編碼是ASCII. Cpython.c語言的預設編碼是ASCII

unicode弊端:在儲存和傳輸的時候. 是很浪費的
在儲存和傳輸的時候不能直接使用unicode. 必須要對字串進行編碼. 編碼成bytes型別
bytes: 位元組形式的字串

1. encode(編碼格式) 編碼
2. decode(編碼格式) 解碼

bytes是一種另類的字串表示形式
"哈哈哈" => \xee\xab\x13\xee\xab\x13\xee\xab\x13

# s = "我今天非常的困" # 21個utf-8
# bs = s.encode("gbk") # 把字串轉化成utf-8格式bytes
# # bytes不是給人看的. 給機器用的
# # 14個位元組   gbk
# # b'\xce\xd2\xbd\xf1\xcc\xec\xb7\xc7\xb3\xa3\xb5\xc4\xc0\xa7'
# # 21個位元組   utf-8
# # b'\xe6\x88\x91\xe4\xbb\x8a\xe5\xa4\xa9\xe9\x9d\x9e\xe5\xb8\xb8\xe7\x9a\x84\xe5\x9b\xb0'
# print(bs)

# utf-8和gbk是不能直接轉換的, 必須使用unicode來轉換

# bs = b'\xe6\x88\x91\xe4\xbb\x8a\xe5\xa4\xa9\xe9\x9d\x9e\xe5\xb8\xb8\xe7\x9a\x84\xe5\x9b\xb0'
# # 把位元組轉化回字符串
# s = bs.decode("utf-8")
# print(s)



# b'\xe6\x88\x91\xe4\xbb\x8a\xe5\xa4\xa9\xe9\x9d\x9e\xe5\xb8\xb8\xe7\x9a\x84\xe5\x9b\xb0'
# 把這個bytes轉化成gbk的bytes
# bs = b'\xe6\x88\x91\xe4\xbb\x8a\xe5\xa4\xa9\xe9\x9d\x9e\xe5\xb8\xb8\xe7\x9a\x84\xe5\x9b\xb0'
# # 解碼
# s = bs.decode("utf-8")
# print(s)
#
# # 編碼
# bss = s.encode("gbk")
# print(bss)


# 關於bytes, 非ascii中的內容. 展示的時候都是\x.. 如果是ascii中的內容. 原樣輸出
# name = "alex昨天吃多了"
# bs = name.encode("gbk") # b'alex\xd7\xf2\xcc\xec\xb3\xd4\xb6\xe0\xc1\xcb'
# print(bs)
#
# bss = name.encode("utf-8") # b'alex\xe6\x98\xa8\xe5\xa4\xa9\xe5\x90\x83\xe5\xa4\x9a\xe4\xba\x86'
# print(bss)

再談編碼 decode和encode

1. ascii. 有: 數字, 字母, 特殊字元. 8bit 1byte 128 最前面是0 2. gbk. 包含: ascii, 中文(主要), 日文, 韓文, 繁體文字. 16bit, 2byte. 3. unicode. 包含gbk,ascii,big5... 32bit, 4byte 4. utf-

python中編碼和解碼decode和encode的使用

python encode decode python 在處理字符串時經常遇到編碼錯誤，導致亂碼，且python 2.x和 python 3.x之間有很大的不同，先在這裏記錄一下，以後整理;轉載文章一篇：http://www.cnblogs.com/evening/archive/2012/04

asp對中文編碼及解碼,Decode和Encode中文網址處理

<%'-------------------------------------------------------------------------- '=======================================================

python蛋疼的編碼decode、encode、unicode、str、byte的問題都在這了

機器 .com mage byte 一個 blog 字符同時 nbsp 　　相信很多人和我一樣，被python蛋疼的編碼問題糾纏不清，比如下面的　　私以為出現這種錯誤的原因還是對一些基本的編解碼概念不夠熟悉，下面就說說我的理解：　　首先python剛出來的時候uni

python decode和encode

系統進行中間轉碼 str1 編碼 code 轉換成沒有摘抄: 字符串在Python內部的表示是Unicode編碼,因此,在做編碼轉換時,通常需要以unicode作為中間編碼,即先將其他編碼的字符解碼(decode)成unicode,再從unicode編碼(enco

再談編碼---小數據池(概念)

創建 val 遇到什麽是 python2 規則變量函數判斷　　 1. 小數據池小數據池在說小數據池之前. 我們先看一個概念. 什麽是代碼塊:python程序是由代碼塊構成的. 一個代碼塊的文本作為python程序執行的單元.代碼塊: 一個模塊, 一個函數, 一個類

再談SG函式和SG定理

今天考了一道博弈論的題，讓我重新複習一下SG定理吧。首先通常的Nim遊戲的定義是這樣的：有若干堆石子，每堆石子的數量都是有限的，合法的移動是“選擇一堆石子並拿走若干顆（不能不拿）”，如果輪到某個人時所有的石子堆都已經被拿空了，則判負（因為他此

再談指標運算和地址加減運算的區別

先上程式碼，有下面一段程式碼： //下面是讀取線狀目標的記錄內容的程式碼： procedure OnReadLineShp(ShpFileName:String); var FileHandle:integer; RecordNumber:integer; Co

python2 和python3 開啟檔案注意事項（兩者decode和encode函式的區別）

比如，需要開啟的資料檔案puk_training.utf8的樣式如圖所示一、python2 開啟檔案： import sys print(sys.getdefaultencoding()) #系統預設編碼方式 f = file(".\\pku_training

再談開發人員和測試人員的比例

提高開發人員:測試人員的比例，也有積極的一面，它會驅動產品設計人員、開發人員具有更強的質量主人翁精神，承擔更多的責任，做好需求分析、設計，寫好程式碼和充分地完成單元測試，提高各個階段性成果輸出的質量。要達到這樣的目標，需要從管理層開始，具有相同的認識——如質量是構建的、軟體產品的質量更大程度上取決於產品設計人

python 字符串編碼 str和unicode 區別以及相互轉化 decode('utf-8') encode('utf-8')

encode unicode 字符串 code com bubuko src 區別分享圖片 python 字符串編碼 str和unicode 區別以及相互轉化 decode('utf-8') encode('utf-8'

python中文編碼問題（decode('gbk').encode('utf-8')和decode('utf-8').encode('gbk')這對好基友）

想必每個Python新手都會遇到Python編碼的問題，特別是使用到漢字的時候。UTF-8編碼是比較通用的編碼方式，它可以輸出中文，而Python2中預設的編碼方式一般是GBK，所以往往我們期

Python 列表內字元編碼問題，encode和decode

在學習python爬蟲時遇到個小問題，記錄一下：列表內的元素用迴圈單個輸出的話，是正常的中文顯示，而用 append 方法新增到集合再直接輸出集合的時候，顯示的是下面的Unicode編碼格式。 import urllib2 import random from bs4 i

PHP 依賴註入和控制反轉再談(二)

container nothing block 單元測試 int ner code blog 功能今天有個朋友看到yii2中介紹的依賴註入一頭霧水,之前我寫過類似的文章發給他看了,可能還沒深入理解吧，這裏我再通俗點描述下依賴註入的原理吧，盡可能滴說通俗易懂一點吧：先還是扯

再談應用環境下的 TIME_WAIT 和 CLOSE_WAIT

ech 防範生效場景 closed 防止減少進入 top 轉自：http://blog.csdn.net/shootyou/article/details/6622226 昨天解決了一個HttpClient調用錯誤導致的服務器異常，具體過程如下： http://

Python3中字符串的編碼與解碼以及編碼之間轉換(decode、encode)

python3 encode 由於表示 nic code .... 以及 mage 一、編碼二、編碼與解碼 Python3中對py文件的默認編碼是urf-8。但是字符串的編碼是Unicode。由於Unicode采用32位4個字節來表示一個字符，存儲和傳輸太浪費資

再談面向物件中的封裝、繼承和多型

封裝封裝說的是把資料封裝起來，對外暴露一個可以訪問的介面，不能讓外界直接訪問內部的資料。從上面的描述可以抽取出兩種型別：介面和類。從現在比較火的微服務的觀點上來看，一個類就是一個服務，一個物件就是一個服務的例項，通過這個服務暴露的介面來訪問這個服務。從這個意義上來講，面向

再談print和import

print：　　使用逗號隔開，列印多個表示式 print("name", "Ben", 23) # name Ben 23 　　如上可見，引數之間是空格，如果要合併，又不想用字串格式化，可以這樣做 a = "name," b = "Ben," c = 23 print(a,

再談Redirect 客戶端重定向和Dispatch 伺服器端重定向

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

再談資料結構（一）：棧和佇列

1 - 前言棧和佇列是兩種非常常用的兩種資料結構，它們的邏輯結構是線性的，儲存結構有順序儲存和鏈式儲存。在平時的學習中，感覺雖然棧和佇列的概念十分容易理解，但是對於這兩種資料結構的靈活運用及程式碼實現還是比較生疏。需要結合實際問題來熟練佇列和棧的操作。 2 - 例題分析 2.1

再談編碼 decode和encode

相關推薦