字元編碼學習記錄

阿新 • • 發佈：2018-12-08

1、位元組

1位元組（byte）=8位元（bit）；
一個位元組能表示的最大數字是2^8-1=255；
一個英文字母是一個字元；
一個漢字是一個字元；

2、編碼

ASCII編碼，佔1個位元組，美國使用，只有127個字元，包括大小寫英文字母、數字和符號，例如大寫字母A編碼為65，小寫字母z編碼為122；
中國的中文編碼為GB2312，一個漢字佔用2個位元組；
日本的日文編碼為Shift_JIS；
韓國的韓文編碼為Euc-kr；

在多語言混合的文字中，會顯示亂碼

Unicode編碼把所有語言都統一到一套編碼裡，一般有2

個位元組；
UTF-8編碼，可變長編碼，把一個Unicode字元根據不同的數字大小編碼成1-6個位元組，節省空間，英文字母佔用1個位元組，常用漢字佔用3個位元組，生僻的字元佔用4-6個位元組；

ASCII可以看做UTF-8的一部分

3、現在計算機系統通用的字元編碼工作方式：

在記憶體中以Unicode形式存在，在硬碟中以UTF-8形式存在；
在python中用ord()函式和chr()函式轉換字元和編碼；
例如（python3）：

import sys
print(ord('A'))
print(chr(65))

顯示如下：

65
A

print('\u4e2d\u6587') # '\u'指的是十六進位制的Unicode編碼，可以直接和單個字元轉換

顯示如下：

中文

字串型別是str，在網路上傳輸或者儲存到磁碟上就需要變為以位元組為單位的bytes（位元組流）

encode用來把字串轉換為bytes形式

print('ABC'.encode('ascii'))
print( '中文'.encode('utf-8'))

顯示如下：

b’ABC’
b’\xe4\xb8\xad\xe6\x96\x87’

\x指的是UTF-8編碼

decode

用來把bytes形式轉換為字串

print(b'ABC'.decode('ascii'))
print(b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8'))

顯示如下：

ABC
中文

如果bytes中包含無法解碼的位元組，decode()方法會報錯
如果bytes中只有一小部分無效的位元組，可以傳入errors='ignore'忽略錯誤的位元組：

print(b'\xe4\xb8\xad\xff'.decode('utf-8', errors='ignore'))

顯示如下：

中

當Python直譯器讀取原始碼時，為了讓它按UTF-8編碼讀取，通常在檔案開頭寫上以下兩行：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

4、格式化字串

print( 'Hi, %s, you have $%d.' % ('Michael', 1000000)) #如果只有一個變數，括號可以去掉

顯示如下：

Hi, Michael, you have $1000000.

%s用字串替換
%d用整數替換
%f用浮點數替換
%x用十六進位制整數替換

print('%2d-%013d' % (3, 10))

顯示如下：

3-0000000000010

%013d表示把整數變成13位數，不夠13位的在前面用數字0補齊
%2d表示把整數變成2位數，不夠兩位的在前面用空格補齊

print('%.3f' % 3.1415926)
print('%.3f' % 3.1)

顯示如下：

3.142
3.100

%.3f表示把浮點數在小數點後保留3位，小數點後不夠3位的用數字0補齊
如果%是字串中的普通字元，用%%表示%
例如：

print('考試通過率: %d%%' % 80)

顯示如下：

考試通過率: 80%

字元編碼學習記錄

1、位元組 1位元組（byte）=8位元（bit）；一個位元組能表示的最大數字是2^8-1=255；一個英文字母是一個字元；一個漢字是一個字元； 2、編碼 ASCII編碼，佔1個位元組，美國使用，只有127個字元，包括大小寫英文字母、

Python 字元編碼學習-ascii編碼，Unicode和UTF-8之間的關係

ascii編碼，Unicode和UTF-8之間的關係 1，ascii編碼，這是一種單位元組編碼，8位，一個char的長度。最多可以存放255中不同的字元。對於早期的計算機系統來說，對於應付英文字元和一些符號綽綽有餘了。事實上基本的ascii碼只用了128個。

字符集和字元編碼學習總結

問題起源於，從網上下載的高清電影外掛字幕放到 QNap 中去，從 Qvideo 中訪問竟全是亂碼。查詢得知，QNap 中的 Video Station 只能解析識別以 UTF-8 編碼的字幕檔案。雖然採用 QNap 上更強大的 Plex 可以自然解決該問題，

[學習筆記] 五分鐘快速理解字符集與字元編碼的區別

字符集字符集,也稱作字元編碼方案,是為字元集合中每一個字元分配一個唯一ID的編碼字符集.包括了Unicode,ASCII,ANSI等字符集。 Unicode字符集 — 所有字元組成的字符集國際組織制定的可以容納世界上所有文字和符號的字元編碼方案。如果全世界每一個符號都給予一個

Python學習【1.1.2】-字元編碼

字元編碼 A）文字與直譯器 1）文字編輯器存取檔案的原理（nodepad++/pycharm/word等）開啟編輯器就打開了啟動了一個程序，是在記憶體中，所以在編輯器編寫的內容也是存放在記憶體中，斷電後資料丟失，所以需要儲存到硬碟上，點選儲存按鈕之後，就從記憶體中把資料刷到

python學習day9 字元編碼和檔案處理

1.字元編碼 x='上' #unicode的二進位制---------》編碼--------》gbk格式的二進位制 res=x.encode('gbk') #bytes 位元組型別 print(res,type(res)) m=res.decode('gbk') print(m)&nb

【Python學習】字元編碼

先說兩個基礎知識。（1）計算機內部，資料是由0,1組成的；（2）計算機最小的資料單位，就是一個二進位制單位即bit，接下來就是8個二進位制單位表示一個位元組(Byte)。 1 ASCII碼 ASCII碼（American Standard Code for Information Intercha

python學習-字元編碼區別

一、字元編碼 ASCII編碼127個字元，佔8bit位，1byte。 GB2312編碼7445個字元，包括6763和漢字和682個其他符號。（1980年） GB18030編碼27484個字元，同時收錄了藏文、蒙文、維吾爾文等少數民族文字，PC必須支援，嵌入式可以例外。（2000年）從ASCII、GB

由使用Python2引發的編碼問題的學習記錄

前言最近接了做字幕的兼職，自己總結了一套效率比較高的流程，但其中有一步需要將混在一起的中文行和英文行分開，所以想到了藉助Python指令碼來解決。本來覺得是個沒那麼複雜的問題，就是檢測某一行是否包括中文即可，不過由於對編碼問題的不熟悉，花了不少功夫。（建議大家儘快

Python學習【第5篇】：Python之字元編碼問題 python之----------字元編碼具體原理

python之----------字元編碼具體原理 1.記憶體和硬碟都是用來儲存的。 CPU：速度快硬碟：永久儲存 &nb

python學習筆記之資料型別、字元編碼、檔案處理

　　 1、資料型別　　1、數字（int，float）　　　　整形（int）：定義 age=20 #本質age=int(20) 　　　　浮點型別：salary=3000.3 #本質salary=float(3000.3) 　　　　還有不常用的長整型、複數。　　2、字串

廖雪峰老師Python學習（2）：字元編碼

字元編碼我們已經講過了，字串也是一種資料型別，但是，字串比較特殊的是還有一個編碼問題。因為計算機只能處理數字，如果要處理文字，就必須先把文字轉換為數字才能處理。最早的計算機在設計時採用8個位元（bit）作為一個位元組（byte），所以，一個位元組能表示的最大的整數就是255（二進位制11

Python學習筆記（二）字元編碼轉化

在上一篇我們提起倒編碼，那麼如何用Python進行字元轉化了？首先有兩個函式：“ord( ) , chr( )”,其中ord( )是獲取引數——字元整數表示（十進位制），而chr( )與其相反，是將整數表達形式轉換為字元。如果你有閒心的話，你還可以在字串直接用數字表示

python基礎學習之字元編碼unicode、decode、encode的相互轉化

#unicode # encode ：解碼 decode:編碼一、encode的使用 s="你好" s_gbk = s.encode("gbk") print(s) print(s.encode()) #預設utf-8,進行enc

學習記錄-對Qt的QLineEdit進行輸入字元限制

檢視幫助文件，瞭解到Qt對文字框的輸入限制是使用QValidator和QRegExp來進行處理。 QValidator*validator_10=newQIntValidator(0,99999,t

ES學習記錄10.3——ES分析器4(字元過濾器)

浪費了“黃金五年”的Java程式設計師，還有救嗎？ >>>

Android應用基礎學習記錄

應用 ctp 例如 case 推薦都沒有變量命名規則 bytearray href 01_前言前言，了解了Android的情況。這裏也介紹一下本文。本文是記錄學習Android應用程序開發過程，視頻中使用的Android2.2版本號，我以4.2版本號為基礎，找

[QT][SQL]sq]學習記錄1_模糊搜索

學習網 cnblogs src from log 搜索數據城市 like .cn sql學習網站: http://www.w3school.com.cn/sql/index.asp 用於模糊搜索數據庫的數據語句:http://www.w3school.com.cn/

學習記錄：安裝配置自動化工具ansible

ansible學習記錄：安裝配置ansible更新日期: 2016-11-30系統環境：centos6.5本機ip ：192.168.233.123被管理機ip ：192.168.233.124—————————————————————————————————————py版本

IPProxyPool學習記錄

lib pip3 figure python3 amp library 學習多版本 not find python3下 import sqlite3 報錯： NO module named ‘_sqlite3‘ 是因為多版本ptyhon問題，需要重新編譯python 步驟

字元編碼學習記錄

1、位元組

2、編碼

3、現在計算機系統通用的字元編碼工作方式：

4、格式化字串

相關推薦