1. 程式人生 > >char到wchar的轉換實質

char到wchar的轉換實質

1、從char到wchar_t


“這個問題比你想象中複雜”

從字元到整數

char 是一種整數型別,這句話的含義是,char所能表示的字元在C/C++中都是整數型別。好,接下來,很多文章就會舉出一個典型例子,比如,'a'的數值就是0x61。這種說法對嗎?如果你細心的讀過K&R和BS對於C和C++描述的原著,你就會馬上反駁道,0x61只是'a'的ASCII值,並沒有任何規定C/C++的char值必須對應ASCII。C/C++甚至沒有規定char佔幾位,只是規定了sizeof(char)等於1。
當然,目前大部分情況下,char是8位的,並且,在ASCII範圍內的值,與ASCII對應。

本地化策略集(locale)

“將 'a'翻譯成0x61的整數值”,“將ASCII範圍內的編碼與char的整數值對應起來”,類似這樣的規定,是特定系統和特定編譯器制定的,C/C++ 中有個特定的名詞來描述這種規定的集合:本地化策略集(locale。也有翻譯成“現場”)。而翻譯——也就是程式碼轉換(codecvt)只是這個集合中的一個,C++中定義為策略(facet。也有翻譯為“刻面”)

C/C++的編譯策略

“本地化策略集”是個很好的概念,可惜在字元和字串這個層面上,C/C++並不使用(C++的locale通常只是影響流(stream)),C/C++使用更直接簡單的策略:硬編碼。
簡單的說,字元(串)在程式檔案(可執行檔案,非原始檔)中的表示,與在程式執行中在記憶體中的表示一致。考慮兩種情況:
A、char c = 0x61;
B、char c = 'a';
情況A下,編譯器可以直接認識作為整數的c,但是在情況B下,編譯器必須將'a'翻譯成整數。編譯器的策略也很簡單,就是直接讀取字元(串)在原始檔中的編碼數值。比如:
const char* s = "中文abc";
這段字串在GB2312(Windows 936),也就是我們的windows預設中文系統原始檔中的編碼為:
0xD6   0xD0   0xCE 0xC4 0x61 0x62 0x63
在UTF-8,也就是Linux預設系統原始檔中的編碼為:
0xE4   0xB8   0xAD   0xE6   0x96   0x87   0x61   0x62   0x63
一般情況下,編譯器會忠實於原始檔的編碼為s賦值,例外的情況比如VC會自作聰明的把大部分其他型別編碼的字串轉換成GB2312(除了像UTF-8 without signature這樣的倖存者)。
程式在執行的時候,s也就保持是這樣的編碼,不會再做其他的轉換。

寬字元 wchar_t
正如char沒有規定大小,wchar_t同樣沒有標準限定,標準只是要求一個wchar_t可以表示任何系統所能認識的字元,在win32 中,wchar_t為16位;Linux中是32位。wchar_t同樣沒有規定編碼,因為Unicode的概念我們後面才解釋,所以這裡只是提一下,在 win32中,wchar_t的編碼是UCS-2BE;而Linux中是UTF-32BE(等價於UCS-4BE),不過簡單的說,在16位以內,一個字元的這3種編碼值是一樣的。因此:
const wchar_t* ws = L"中文abc";
的編碼分別為:
0x4E2D   0x6587    0x0061   0x0062   0x0063                                                //win32,16位
0x00004E2D   0x00006587    0x00000061   0x00000062   0x00000063        //Linux,32位
大寫的L是告訴編譯器:這是寬字串。所以,這時候是需要編譯器根據locale來進行翻譯的。
比如,在Windows環境中,編譯器的翻譯策略是GB2312到UCS-2BE;Linux環境中的策略是UTF-8到UTF-32BE。
這時候就要求原始檔的編碼與編譯器的本地化策略集中程式碼翻譯的策略一致,例如VC只能讀取GB2312的原始碼(這裡還是例外,VC太自作聰明瞭 ,會將很多其他程式碼在編譯時自動轉換成GB2312),而gcc只能讀取UTF-8的原始碼(這裡就有個尷尬,MinGW執行win32下,所以只有 GB2312系統才認;而MinGW卻用gcc編寫,所以自己只認UTF-8,所以結果就是,MinGW的寬字元被廢掉了)。
寬字元(串)由編譯器翻譯,還是被硬編碼程序序檔案中。

相關推薦

char到wchar的轉換實質

1、從char到wchar_t “這個問題比你想象中複雜” 從字元到整數 char 是一種整數型別,這句話的含義是,char所能表示的字元在C/C++中都是整數型別。好,接下來,很多文章就會舉出一個典型例子,比如,'a'的數值就是0x61。這種說法對嗎?如果你細心的讀過K&

SQL農歷轉換函數(顯示中文格式,加入潤月的顯示)

turn 農歷 etime object reat arch () bject blog if object_id(‘fn_getlunar‘) is not null drop function fn_getlunar go create function d

在Sql中將 varchar 值 '1,2,3,4,5,6' 轉換成數據類型 int

給定 序列 顯示 結果 空格 sel -方法 一個表 affect --問題:將aa轉換為Int類型失敗 string aa="3,5,11,56,88,45,23"; select * from ERPBuMen where ID in(aa) ; --方法sel

js日期轉換和格式化

ets replace pla form nbsp 其他 minute color lac 1.日期格式化 Date.prototype.Format = function (fmt) { //author: meizz var o = {

時區轉換

local strong consola nbsp 本地 時間轉換 spa server tostring 工作中遇到的問題,服務器在美國,但是客戶在印度,所以要把本地時間/服務器時間轉換成印度時間。代碼如下: 將本地時區轉換成印度時區: String indianTi

JSON字符串轉換成JSON對象

script 如果 with 方法 rom code ie8 eva fire 一 JSON對象的parse方法 IE8+、Chrome、Safari、Firefox瀏覽器都支持。 var str = ‘{"name":"張三"}‘; var obj = J

java中String類型轉換為yyyy-MM-dd的Date類型

col code edate birt mat led div get sys String birthday ="2017-02-22"; SimpleDateFormat sdf = new SimpleDateFormat(("yyyy-MM-dd")); jav

Problem F: 分數類的類型轉換

處理 都是 mas show urn 現在 輸入 names 註意 Description 封裝一個分數類Fract,用來處理分數功能和運算,支持以下操作: 1. 構造:傳入兩個參數n和m,表示n/m;分數在構造時立即轉化成最簡分數。 2. show()函數:分數輸出

轉:Java中String與byte[]的轉換

輸出字符串 單個字符 linu 編輯 繁體 中國人 對象 本質 計算機基礎知識 String s = "fs123fdsa";//String變量 byte b[] = s.getBytes();//String轉換為byte[] String t = new Stri

python經常使用的十進制、16進制、字符串、字節串之間的轉換(長期更新帖)

int oct pac 轉字符串 ont example 字節 short 試用 進行協議解析時。總是會遇到各種各樣的數據轉換的問題,從二進制到十進制,從字節串到整數等等 廢話不多上。直接上樣例 整數之間的進制轉換: 10進制轉16進制: hex(16) ==

圖片和base64編碼字符串 互相轉換,圖片和byte數組互相轉換

16進制 cnblogs exc 十六進制 tostring ati color int inpu 圖片和base64編碼字符串 互相轉換 import sun.misc.BASE64Decoder; import sun.misc.BASE64Encoder; imp

自動類型轉換、強制類型轉換、作用域、整型表數範圍

基本類 logs 自動類型轉換 四種 main print 輸出字符串 縮小 stat 一、變量的作用域 測試代碼: public class Test1 { private static int value = 1; // 全局變量 pri

『ORACLE』 DG性能轉換(11g)

files bsp 備庫 for ima -s rim line 修改 一、最大性能轉換至最大可用 確認主庫模式: [email protected]/* */ hey~2->select protection_mode,protection_level

SQL中大小寫轉換

ges images log 字段名 one mage tor sql com 1一. 轉換為大寫 2 3UPPER(字段名或變量名) 4 5二. 轉換為小寫 6 7LOWER(字段名或變量名) 8 9三. 示例 1011SELECT upper(‘a‘),low

OpenCV視頻讀取播放,視頻轉換為圖片

character capture clas 等待 del only _for lis ostream 轉載請註明出處!!!http://blog.csdn.net/zhonghuan1992 OpenCV視頻讀取播放,視頻轉換為圖片

javascript數據類型轉換

int cnblogs || 值類型 body 數值 clas java 進行 當字符串、數值類型的數據,進行加法運算時,數值類型會自動轉換成字符串。 當if條件裏面,會將結果自動轉換成布爾類型的數據。 1 <script type="text/javascr

Java 大小端轉換

大小端 brush class -1 否則 字符數組 () 指定 str package nlp.nlp; /** * 小端數據,Byte轉換 * */ public class ByteConvert { public static void mai

在SCIKIT中做PCA 逆運算 -- 新舊特征轉換

3.0 arr example self ipc bsp var 組合 print PCA(Principal Component Analysis)是一種常用的數據分析方法。PCA通過線性變換將原始數據變換為一組各維度線性無關的表示,可用於提取數據的主要特征分量,常用於高

C# 關鍵字explicit(顯示),implicit(隱式),類型的隱式和顯式轉換

tar oid bsp color col 必須 code 類型 顯示 class Program { static void Main(string[] args) { Adaptee ada = ne

將UTC日期字符串轉為本地時間字符串,如@"yyyy-MM-dd'T'HH:mm:ssZ"轉換為本地時間

timezone 方法 time ted lda 字符 alloc omd mst 由於蘋果商店上線應用24小時內會不穩定,更新提醒可能會陷入死循環,更新提醒需要24小時後彈出,需要把蘋果返回的上線時間轉換為本地時間故寫了下邊的方法: //將UTC日期字符串轉為本地