1. 程式人生 > 其它 >字符集和編碼

字符集和編碼

#  字符集和編碼
# 0 1 <=> 010101110 => 二進位制轉換成10進位制 <=> 88
# 電腦如何進行儲存文字資訊
# 人為的規定  10010101 <=>  a
# 美國的科學家制定了統一的ascii碼
# ASCII碼==> 編排了128個文字元號,包含(字母,回車,各種特殊符號,標點等等)
# 只需要7個0和1就可以表示這128個符號.如:01101010
# (7個0和1,可以組合成不同的順序)其中最開始的0也是加進去的=>1
# 1 byte(位元組) ==> 8bit
# ANSI => 美國人提供的一套標準,每個字元 16bit,2byte
""" 01000000 01111111 到了中國,gb2312(一次編碼), gbk編碼(二次擴充) 01000000 01111111 ==>中 ->bg18030(三次擴充,現在的windows預設編碼) 到了臺灣,big5編碼 到了日本,JIS編碼 01000000 01111111 ==>π 總共能新增65536個編碼進去 01000000 01111111 ,中國與日本都是一樣的編碼,但表示的字元不一樣 Unicode: 萬國碼.[國際標準組織編寫的], 中文 ->行書, 草書, 律書 早期Unicode沒意識到內容很多隻有 ucs-2 2個位元組,進行二次擴容,ucs-4 4個位元組(000000000 000000000 000000000 11111110) utf: 是可變長度的Unicode,可以進行資料的傳輸和儲存 ->行書, 草書, 律書 utf-8: 最短的位元組長度8 英文: 8bit, 1byte 歐洲文字: 16bit(位),2byte(位元組) 中文: 24bit(位), 3byte(位元組) 蘋果系統utf-8 ,Windows系統gbk編碼
""" # 1.ASCII碼: 8bit, 1byte # 2.源自(ascii碼)gbk碼: 16bit, 2byte__________Windows預設 # 3.Unicode碼: 32bit, 4byte(沒法用,只是一個標準) # 4.源自(unicode)utf-8:_______mac預設(蘋果系統) # 英文:8bit, 1位元組 # 歐洲:16bit, 2位元組 # 中文:24位, 3位元組 # gbk和utf-8 不能直接進行轉化 # 我軍密碼本-=>文字-=> 敵軍密碼本 print(2**16) # 2 的16 次方