1. 程式人生 > >計算機系統通用的字元編碼方式

計算機系統通用的字元編碼方式



在計算機記憶體中,統一使用Unicode編碼,

當需要儲存到硬碟或者需要傳輸的時候,

就轉換為UTF-8編碼。

用記事本編輯的時候,從檔案讀取的UTF-8字元被轉換為Unicode字元到記憶體裡,

編輯完成後,儲存的時候再把Unicode轉換為UTF-8儲存到檔案。

UTF-8編碼把一個Unicode字元根據不同的數字大小編碼成1-6個位元組,

常用的英文字母被編碼成1個位元組,漢字通常是3個位元組,只有很生僻的字元才會被編碼成4-6個位元組。

如果你要傳輸的文字包含大量英文字元,用UTF-8編碼就能節省空間。

在最新的Python 3版本中,字串是以Unicode編碼的,

也就是說,Python的字串支援多語言。