GBK與UTF-8的區別
GBK的文字編碼是雙位元組來表示的,即不論中、英文字元均使用雙位元組來表示,只不過為區分中文,將其最高位都定成1。
至於UTF-8編碼則是用以解決國際上字元的一種多位元組編碼,它對英文使用8位(即一個位元組),中文使用24位(三個位元組)來編碼。對於英文字元較多的論壇則用UTF-8節省空間。
GBK包含全部中文字元; UTF-8則包含全世界所有國家需要用到的字元。
GBK是在國家標準GB2312基礎上擴容後相容GB2312的標準(好像還不是國家標準) UTF-8編碼的文字可以在各國各種支援UTF8字符集的瀏覽器上顯示。 比如,如果是UTF8編碼,則在外國人的英文IE上也能顯示中文,而無需他們下載IE的中文語言支援包。 所以,對於英文比較多的論壇 ,使用GBK則每個字元佔用2個位元組,而使用UTF-8英文卻只佔一個位元組。
UTF8是國際編碼,它的通用性比較好,外國人也可以瀏覽論壇 GBK是國家編碼,通用性比UTF8差,不過UTF8佔用的資料庫比GBK大~
對於DZ論壇來說,很多外掛都只支援GBK的,如果需要裝較多外掛的論壇還是用GBK比較好,而對裝較少外掛且有特殊使用者群的論壇用UTF8比較好。
相關推薦
GBK與UTF-8編碼區別
GBK編碼:是指中國的中文字元,其它它包含了簡體中文與繁體中文字元,另外還有一種字元“gb2312”,這種字元僅能儲存簡體中文字元。 UTF-8編碼:它是一種全國家通過的一種編碼,如果你的網站涉及到多個國家的語言,那麼建議你選擇UTF-8編碼。 GBK和UTF8有什麼區別
GBK與UTF-8的區別
GBK的文字編碼是雙位元組來表示的,即不論中、英文字元均使用雙位元組來表示,只不過為區分中文,將其最高位都定成1。 至於UTF-8編碼則是用以解決國際上字元的一種多位元組編碼,它對英文使用8位(即一個位元組),中文使用24位(三個位元組)來編碼。對於英文字元較多的論壇則
編碼的由來,GBK與UTF-8
很久很久以前,有一群人,他們決定用8個可以開合的電晶體來組合成不同的狀態,以表示世界上的萬物。他們看 到8個開關狀態是好的,於是他們把這稱為”位元組“。再後來,他們又做了一些可以處理這些位元組的機器,機器開動了, 可以用位元組來組合出很多狀態,狀態開始變來變去。
如何選擇MySQL資料庫中GBK與UTF-8編碼
在MySQL中,如果資料庫只需要支援一般中文,資料量很大,效能要求也比較高,那麼就最好選擇GBK,因為相對於UTF-8而言,GBK佔用的空間較小,每個漢字只佔2個位元組,而UTF-8漢字編碼需要3個位元組,這樣可以減少磁碟I/O、資料庫cache,以及網路傳輸的時間,從而提高
在GBK與UTF-8互轉時遇到問題,及解決方案
當文字長度為奇數時轉為GBK再轉回UTF-8時會出現末尾字元亂碼的情況,在此特地記錄一下解決方案 最近在寫一個根據模板標籤生成word的專案,在本地測試無問題但是放到伺服器上會出現生成字元亂碼的情況, 考慮到GBK轉UTF-8使用getBytes只有在長度為
ASCII,Unicode,GBK和UTF-8字符編碼的區別聯系
技術 最大的 發展 時代 AC 人類 資料 新的 字節 ASCII,Unicode,GBK和UTF-8字符編碼的區別聯系 wyrssktzc11級分類:其他被瀏覽86次2016.05.27 檢舉 KingSta逍遙 采納率:45%7級20
ASCII,Unicode,GBK和UTF-8字符編碼的區別和聯系
online 擴展 集合 發展 核心 長度 打開 選擇 最大 如果經常寫python2,肯定會遇到各種“奇怪”的字符編碼問題,每次都通過谷歌解決了,但是為什麽會造成這種亂碼、decode/encode失敗等等,本文就字符和字符編碼做一個總結,更加清晰區分諸多的編碼。 字符集
關於ANSI,unicode與utf-8的區別
關於ANSI,unicode與utf-8的區別 為使計算機支援更多語言,通常使用 0x80~0xFFFF 範圍的 2 個 位元組來表示 1 個字元。比如:漢字 '中' 在 ANSI編碼 中文作業系統中,使用 [0xD6
UNICODE,GBK,UTF-8區別
一、編碼歷史與區別 一直對字元的各種編碼方式懵懵懂懂,什麼ANSI UNICODE UTF-8 GB2312 GBK DBCS UCS……是不是看的很暈,假如您細細的閱讀本文你一定可以清晰的理解他們。Let's
python指令碼實現windows下檔案gbk編碼與utf-8相互轉換
程式碼如下: import codecs import sys def ReadFile(filePath, encoding="utf-8"): with codecs.open(filePa
Python2.7 中文字元編碼 & Pycharm utf-8設定、Unicode與utf-8的區別
Python2.7 中文字元編碼 & Pycharm utf-8設定、Unicode與utf-8的區別 [email protected] 作者:Zhouwan 2017-6-6 一、關於編碼和亂碼,有以下幾個重要的概念需要搞清楚: 二、Pycharm 設定編碼, 可以
GBK(GB2312)與UTF-8檔案轉碼
最近使用的Intelij IDEA開發工具,轉碼有點小問題。百度了一下,Eclipse可以自動轉碼,而IDEA卻不可以。總是需要手動去轉若要把原始檔由GBK轉成UTF-8的,得靠其他方式了。網上搜羅了一下方法,然後自己整理了一下。現把程式碼貼出來,測試OK、可以直接使用!
unicode與utf-8
第一個 另存為 2個 平臺 pre -- 開始 方式 數字 1. ASCII碼 我們知道,在計算機內部,所有的信息最終都表示為一個二進制的字符串。每一個二進制位(bit)有0和1兩種狀態,因此八個二進制位就可以組合出256種狀態,這被稱為一個字節(byte)。也就是說,一個
網頁格式gbk轉utf-8【python requests】
sts url ont content req utf nic tex ext resp = requests.get(url) resp.content 是str格式 resp.text是unicode格式 如果返回的中文使用gbk編碼,需要轉換成utf-8的時候:
字符編碼,ASCII、Unicode與UTF-8的理解
F5 標準化 一般來說 簡書 打開文件 說了 tps can 常用 首先我們先要明白的兩點是:1、計算機中的信息都是由二進制的0和1儲存的;2、我們再計算機屏幕上看到的各種字符都是計算機系統按照一定的規則將二進制數字轉換而來的。 一、基本概念。 1、字符集(charse
【Python基礎】字符編碼ASCII-GBK-Unicode-UTF-8之間的關系
精準 應該 寫入 歷程 UC tran 執行 文件 總結 字符編碼 由於計算機只識別0和1,為了使計算機能夠支持文字和字母等符號,方便實用操作計算機 於是字符編碼應運而生,旨在解決符號和人類語言與計算機0和1建立起一種對應關系 據說不理解字符編碼可能是程序員一輩子的遺憾,拿
快速理解編碼,unicode與utf-8
logs 聯網 長度 unicode 為什麽 互聯網 什麽 描述 com 1.為什麽編碼,因為cpu只認識數字2.ASCII 一個字符共占7位,用一個字節表示,共128個字符3.那麽ASCII浪費了最高位多可惜,出現了ISO-8859-1,一個字節,256個字符,很多協議的
gb18030與utf-8
今天在跟著嵩天老師學習詞雲模組的過程中遇到了編碼問題:UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1:invalid start byte。百度之後,發現如下兩種方法: 一、把編碼方式u
Golang GBK To Utf-8
gbk to utf-8 最近在寫一個爬取小說網站的小爬蟲工具,爬取的過程中發現爬取的網站編碼並不是utf-8編而是gbk編碼,上網差了點資料,發現網上一些推薦的庫,我個人感覺設定的不是很符合Go的設計模式或者說功能太多了,於是上網查了點資料。 首先不瞭解gbk跟utf-8 是
判斷中文文字編碼格式是gbk還是utf-8的一種簡單方式
import java.io.*; public class charsetTest { public static String charsetType(String fileName) throws IOException { BufferedReader reader =