Unicode字符集的由來

本文起源於行走在陽光下的那些不可見字元中的知識邊界，因為涉及到字元相關，而我也不能很清楚的描述Unicode的前世今生，故而有了此文。

計算機技術的革命極大地方便了人們的工作與生活，使得人類生活前進了一大步，可是在計算機發展程序中，世界各地由於語言文字不一，有過那麼一段混亂難受的日子...

字元世界的起源

由於計算機在美國誕生，因此字符集最初也只考慮了美國人當時的需求，誕生了大家熟知的ASCII（American Standard Code for Information Interchange），它由26個基本拉丁字母、阿拉伯數字、英式標點符號和一些控制字元組成。

隨著世界的發展，各國人民也開始接觸計算機，然而各國人民也有自己獨特的文化需求，最開始的字符集滿足不了人們日益增長的需求，各國出現了不同的字符集標準，比如國內早期的Java程式設計師熟知的GBK、GB18030等，我曾經實習的時候接觸的用JSP的老系統裡就有相關的編碼設定，如果用錯誤編碼設定了文件解析格式，可能就會看到亂碼，再想想世界上那麼多個國家，會有多少編碼標準啊，這也是網際網路早期亂碼比較多的原因吧。

各種編碼的字元互不相容，相互之間的通訊可能由於編碼的不同，而導致對方看到的是亂碼，這就如中國歷史中的大秦統一文字和度量單位之前的華夏文明一樣，語言不通、貨幣不通，交流困難。時間的車輪滾滾向前，推動著歷史的發展，於是Unicode（Universal Coded Character Set）出現了，它對世界上大部分的文字系統進行了整理、編碼，使得計算機能夠以更簡單的方式來呈現和處理字元，它的目的就是為所有的字元提供統一的編碼，任何的平臺、系統、裝置、應用或者語言都能相容且無風險使用。

至今Unicode仍在不斷的增修，當前最新版本為2019年5月公佈的12.1，包含137994個字元，不僅包括當今世界上150種語言模型和歷史性的手寫碼和符號，還包括多種符號集與表情符號。

Unicode

九層之臺，起於累土。這樣世界性的標準絕不是一蹴而就，必有其堅實的基礎，設計原則就是Unicode的一大基礎，在《The Unicode Standard Version 6.2 - Core Specification》有提到Unicode的設計原則，

我們熟知的UTF-8其實是Unicode的一種實現方式，即Unicode 轉換格式（Unicode Transform Format），是一種為了減少傳輸資料的大小而設計的變長編碼，每個字元使用1/2/3位元組按照一定演算法進行轉換識別。此外，Unicode的實現方式還包括UTF-7、UTF-16、UTF-32、punycode、GB18030等。

總的來說，Unicode於亂世出生逐漸成為標準統一字元世界，至今仍持續發展，造福了社會，極大的提升了生產效率，雖未與ASCII並列與IEEE里程碑，但也是電腦科學史中一件舉足輕重的大事記。

本次探索到此結束，全文字著追溯Unicode是什麼為什麼產生等問題，進行了一系列追尋，大致理清了Unicode的一些“前世今生”，基本對Unicode能夠有個大概的認知，需要更加深入的探索的小夥伴可以留言一起探討~

ps: 及時總結，靜心沉澱；如風少年，砥礪前行。

冬至快樂~

如想了解更多，請移步我的部落格

歡迎關注我的公眾號 “和F君一起xx”

reference：

Unicode Zh
Unicode En
Unicode Charts Index
Unicode Character Database
IEEE里程碑列表
ENIAC
ASCII
Unicode Script

相關推薦

Unicode字符集的由來

Unicode字符集的由來本文起源於行走在陽光下的那些不可見字元中的知識邊界，因為涉及到字元相關，而我也不能很清楚的描述Unicode的前世今生，故而有了此文。計算機技術的革命極大地方便了人們的工作與生活，使得人類生活前進了一大步，可是在計算機發展程序中，世界各地由於語言文字不一，有過那麼一

字符集研究之多字節字符集和unicode字符集

spa 英語 sci lan 可能個學生計算機 ascii 交換作者：朱金燦來源：http://blog.csdn.net/clever101 本文簡介計算機中兩大字符集：多字節字符集和unicode字符集的出現及關系。首先我們須

位(bit),位元組(Byte),KB,MB,GB,TB,UTF-8,Unicode,字符集，排序規則

1位元組（byte） = 8位（bit） 1KB=1024byte 1MB=1024KB 1GB=1024MB 位（bit）:位只有兩種形式0和1 位元組（byte）:位元組是有8個位組成的。可以表示256個狀態。1位元組（byte）=8位（bit）一個utf8數字佔1個

MFC在Unicode字符集下讀寫ANSI編碼檔案

讀取ANSI編碼檔案時，先將檔案儲存在char*指向的記憶體內，而後使用轉換將char*轉換為w_char_t*。wchar_t*可以使用CString的 Format函式。 CFile file(_T("test.txt"), CFile::modeRead);//讀ANSI編碼的檔案 i

VS下使用多字符集編碼和Unicode字符集編碼的總結

編寫MFC程式的時候，總遇到字符集轉換的問題，這裡總結一下，方便大家使用。在多位元組字符集編碼下，設定如下環境：這時CString與char陣列是可以互相轉換的，而如果改成“使用Unicode字符集”，設定如下：原來的程式碼就會報很多錯誤，諸如： error C2664: “Cxx

VC++的多字符集和unicode字符集轉換大全（CString轉char*等）

_T的意思是通知編譯器，自行進行字串的多位元組/Unicode轉換。而L表示，該字串為Unicode版本。http://www.blogjava.net/neumqp/archive/2006/03/09/34504.html 先區別一下字元陣列和字元指標變數（1）字元陣列

Unicode字符集下，CString 轉換為char型別

//CString 轉換為char型別，Unicode字符集下 UINT num = WideCharToMultiByte(CP_ACP,0,m_SendData,m_SendData.

Unicode字符集下CString與char *轉換

在Visual C++.NET2005中，預設的字符集形式是Unicode，但在VC6.0等工程中，預設的字符集形式是多位元組字符集（MBCS：Multi-Byte Character Set），這樣導致在VC6.0中非常簡單實用的各類字元操作和函式在VS2005環境下執行

VS2015,UNICODE字符集下printf,cout列印CString,與TRACE輸出中文除錯

下面的測試在中文電腦上"chs"直接使用""替換亦可. CString Str; #include <locale.h> // setlocale函式的標頭檔案 setlocale(LC_ALL, "chs"); // 必加只有新

Unicode字符集下CString與char *轉換（解決中文亂碼等）（轉）

1、Unicode下CString轉換為char * 方法一：使用API：WideCharToMultiByte進行轉換              CStringstr = _T("D:\\校內專案\\QQ.bmp");             //注意：以下n和l

VC ANSI字符集和UNICODE字符集的相互轉化

ANSI 字符集中的字串使用一個位元組的空間來存放一個字元，即char*; Unicode字符集使用兩個位元組來存放一個字元，即wchar*; 為了使程式可以使用在不同的字符集上，定義字串時使用TCHAR和PTSTR，字串賦值時使用_T("abc")，這樣程式會根據執行的系統使用的字符集，自動處理字串的儲存

使用UNICODE字符集時候TCHAR和char賦值時的不同

1、關於TCHAR型別查閱MSDN發現 #ifdef UNICODE typedef WCHAR TCHAR; #else typedef char TCHAR; #endif         上面程式碼說白了就是：如果程式使用UNICODE字符集，則TCHAR代表W

Unicode字符集下CString/tchar*與char *轉換（解決中文亂碼等）

Unicode環境下寬字元------->窄字元的轉換定義：TCHAR m_szIp[MAX_IP_LEN]; 我們要將TCHANR型別陣列（寬字元型）轉換為char*pBuffer型別（

ASCII碼與unicode字符集

問題1：為什麼需要字元ASCII碼、unicode碼等等？？？它們到底有什麼作用？     首先要明白一個事實：在計算機中只能用一系列儲存著的0和1，當我們把一個字元存放在計算機時，我們是如何表示常用的字元呢？？這就用到了字元編碼集。而具體怎麼編碼的，就涉及到了常使用的編碼方式，比如本文要介紹的ASCII編

VC++中字串轉換CString, char*, BSTR, 多位元組,unicode字符集轉換的問題

_T的意思是通知編譯器，自行進行字串的多位元組/Unicode轉換。而L表示，該字串為Unicode版本。 http://www.blogjava.net/neumqp/archive/2006/03/09/34504.html 先區別一下字元陣列和字元指標變數（1）字元陣列是由若干個元素組成的，

Java為什麼選擇unicode字符集？字元編碼的那些事

原文地址：http://www.imkevinyang.com/2010/06/%E5%85%B3%E4%BA%8E%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81%EF%BC%8C%E4%BD%A0%E6%89%80%E9%9C%80%E8%A6%

UNICODE字符集和多位元組字符集

可以在程式中設定使用哪種字符集#ifdef UNICODE#define ...#else#define ...#endif---------------------------------------------------ANSI編碼在不同的國家其標準不同UNICODE為

unicode字符集特殊符號對應html/js/css符號

Try to attack it, Then know it, Know it, Then protect it, whenever,our duty is to protect sth ! 聯絡郵箱[email protected]

多位元組字符集改為Unicode字符集遇到的問題及解決方法

在Character Set這裡通常有兩種選擇：一是Use Unicode Character Set ，另一種是Use Multi-Byte Character Set，一般情況下，比較偏向Use Multi-Byte Character Set ，但是當使用中文對話方塊的

VS2013在Unicode字符集下讀寫ANSI編碼檔案

讀取ANSI編碼的檔案時，現將檔案儲存在char* 指向的記憶體內，而後使用轉換將char*轉換為wchar_t*。wchar_t*可以使用CString的Format函式。 CFile file(_

Unicode字符集的由來

字元世界的起源

Unicode

相關推薦