使用Unicode(寬位元組字符集)以及_T與L
關於_T及L
_T 會根據你工程的設定自動轉換UNICODE和非UNICODE.
L 就是轉為UNICODE
如果將來你不打算升級到unicode,那麼也不需要_T!
_T是將字串轉換為TCHAR,TCHAR是一個巨集定義,當定義了UNICODE時TCHAR等同於WCHAR,否則等同於CHAR。為了和以後的平臺相容,建議使用TCHAR,而不要使用普通的CHAR。例子:TCHAR *s = _T("FSDF")
L將字串轉換為WCHAR,用於需要UNICODE的環境。例子:WCHAR *s = L"FSDF"
此外,_TEXT 和_T 一樣的
Example:
SetWindowText(_T("我很好"));
在中文Win2000上正常,在英文Win2000下就是亂碼!
// _T()自動將()內字串轉成unicode or Multibyte-character or SBCS (ASCII) 根據系統巨集定義,
// 為了將程式與vb等unicode 編碼的程式互動,為了程式的國際化,為了...
// 看msdn! 如果定義了 UNICODE 就變成 L把字串轉換成寬字元,否則沒用。
// 統一的字元編碼標準, 採用雙位元組對字元進行編碼
// _T把引數轉換成當前系統支援的字元,例如支援UNICODE就轉換成寬字元,否則就是單字元
#ifdef UNICODE
#define _T(x) L##x
#else
#define _T(x) x
#endif
_T/_TEXT是在TCHAR.H標頭檔案中定義的巨集。
在_UNICODE和_MBCS都沒有定義時,對其後的字串無影響
在_MBCS定義時,對其後的字串無影響
在_UNICODE定義時,其後的字串被定義為 L(即轉換為Unicode字元)
本質上是為了生成Unicode和非Unicode通用的程式而定義的巨集。
Unicode :寬位元組字符集
1. 如何取得一個既包含單位元組字元又包含雙位元組字元的字串的字元個數?
可以呼叫Microsoft Visual C++的執行期庫包含函式_mbslen來操作多位元組(既包括單位元組也包括雙位元組)字串。
呼叫strlen函式,無法真正瞭解字串中究竟有多少字元,它只能告訴你到達結尾的0之前有多少個位元組。
2. 如何對DBCS(雙位元組字符集)字串進行操作?
函式 描述
PTSTR CharNext ( LPCTSTR ); 返回字串中下一個字元的地址
PTSTR CharPrev ( LPCTSTR, LPCTSTR );返回字串中上一個字元的地址
BOOL IsDBCSLeadByte( BYTE );如果該位元組是DBCS字元的第一個位元組,則返回非0值
3. 為什么要使用Unicode?
(1) 可以很容易地在不同語言之間進行資料交換。
(2) 使你能夠分配支援所有語言的單個二進位制.exe檔案或DLL檔案。
(3) 提高應用程式的執行效率。
Windows 2000是使用Unicode從頭進行開發的,如果呼叫任何一個Windows函式並給它傳遞一個ANSI字串,那么系統首先要將字串轉換成Unicode,然後將Unicode字串傳遞給作業系統。如果希望函式返回ANSI字串,系統就會首先將Unicode字串轉換成ANSI字串,然後將結果返回給你的應用程式。進行這些字串的轉換需要佔用系統的時間和記憶體。通過從頭開始用Unicode來開發應用程式,就能夠使你的應用程式更加有效地執行。
Windows CE 本身就是使用Unicode的一種作業系統,完全不支援ANSI Windows函式
Windows 98 只支援ANSI,只能為ANSI開發應用程式。
Microsoft公司將COM從16位Windows轉換成Win32時,公司決定需要字串的所有COM介面方法都只能接受Unicode字串。
4. 如何編寫Unicode原始碼?
Microsoft公司為Unicode設計了WindowsAPI,這樣,可以儘量減少程式碼的影響。實際上,可以編寫單個原始碼檔案,以便使用或者不使用Unicode來對它進行編譯。只需要定義兩個巨集(UNICODE和_UNICODE),就可以修改然後重新編譯該原始檔。
_UNICODE巨集用於C執行期標頭檔案,而UNICODE巨集則用於Windows標頭檔案。當編譯原始碼模組時,通常必須同時定義這兩個巨集。
5. Windows定義的Unicode資料型別有哪些?
資料型別 說明
WCHAR Unicode字元
PWSTR 指向Unicode字串的指標
PCWSTR 指向一個恆定的Unicode字串的指標
對應的ANSI資料型別為CHAR,LPSTR和LPCSTR。
ANSI/Unicode通用資料型別為TCHAR,PTSTR,LPCTSTR。
6. 如何對Unicode進行操作?
字符集 特性 例項
ANSI 操作函式以str開頭 strcpy
Unicode 操作函式以wcs開頭 wcscpy
MBCS 操作函式以_mbs開頭 _mbscpy
ANSI/Unicode 操作函式以_tcs開頭 _tcscpy(C執行期庫)
ANSI/Unicode 操作函式以lstr開頭 lstrcpy(Windows函式)
所有新的和未過時的函式在Windows2000中都同時擁有ANSI和Unicode兩個版本。ANSI版本函式結尾以A表示;Unicode版本函式結尾以W表示。Windows會如下定義:
#ifdef UNICODE
#define CreateWindowEx CreateWindowExW
#else
#define CreateWindowEx CreateWindowExA
#endif // !UNICODE
7. 如何表示Unicode字串常量?
字符集 例項
ANSI “string”
Unicode L“string”
ANSI/Unicode T(“string”)或_TEXT(“string”)if( szError[0] == _TEXT(‘J’) ){ }
8. 為什么應當儘量使用作業系統函式?
這將有助於稍稍提高應用程式的執行效能,因為作業系統字串函式常常被大型應用程式比如作業系統的外殼程序Explorer.exe所使用。由於這些函式使用得很多,因此,在應用程式執行時,它們可能已經被裝入RAM。
如:StrCat,StrChr,StrCmp和StrCpy等。
9. 如何編寫符合ANSI和Unicode的應用程式?
(1) 將文字串視為字元陣列,而不是chars陣列或位元組陣列。
(2) 將通用資料型別(如TCHAR和PTSTR)用於文字字元和字串。
(3)將顯式資料型別(如BYTE和PBYTE)用於位元組、位元組指標和資料快取。
(4) 將TEXT巨集用於原義字元和字串。
(5) 執行全域性性替換(例如用PTSTR替換PSTR)。
(6)修改字串運算問題。例如函式通常希望在字元中傳遞一個快取的大小,而不是位元組。這意味著不應該傳遞sizeof(szBuffer),而應該傳遞(sizeof(szBuffer)/sizeof(TCHAR)。另外,如果需要為字串分配一個記憶體塊,並且擁有該字串中的字元數目,那么請記住要按位元組來分配記憶體。這就是說,應該呼叫
malloc(nCharacters *sizeof(TCHAR)),而不是呼叫malloc(nCharacters)。
10. 如何對字串進行有選擇的比較?
通過呼叫CompareString來實現。
標誌 含義
NORM_IGNORECASE 忽略字母的大小寫
NORM_IGNOREKANATYPE 不區分平假名與片假名字元
NORM_IGNORENONSPACE 忽略無間隔字元
NORM_IGNORESYMBOLS 忽略符號
NORM_IGNOREWIDTH 不區分單位元組字元與作為雙位元組字元的同一個字元
SORT_STRINGSORT 將標點符號作為普通符號來處理
11. 如何判斷一個文字檔案是ANSI還是Unicode?
判斷如果文字檔案的開頭兩個位元組是0xFF和0xFE,那么就是Unicode,否則是ANSI。
12. 如何判斷一段字串是ANSI還是Unicode?
用IsTextUnicode進行判斷。IsTextUnicode使用一系列統計方法和定性方法,以便猜測快取的內容。由於這不是一種確切的科學方法,因此 IsTextUnicode有可能返回不正確的結果。
13. 如何在Unicode與ANSI之間轉換字串?
Windows函式MultiByteToWideChar用於將多位元組字串轉換成寬字串;函式WideCharToMultiByte將寬字串轉換成等價的多位元組字串。
14. Unicode和DBCS之間的區別
Unicode使用(特別在C程式設計語言環境裡)“寬字符集”。「Unicode中的每個字元都是16位寬而不是8位寬。」在Unicode中,沒有單單使用8位數值的意義存在。相比之下,在“雙位組字符集”中我們仍然處理8位數值。有些位組自身定義字元,而某些位組則顯示需要和另一個位組共同定義一個字元。
處理DBCS字串非常雜亂,但是處理Unicode文字則像處理有秩序的文字。您也許會高興地知道前128個Unicode字元(16位程式碼從0x0000到0x007F)就是ASCII字元,而接下來的128個Unicode字元(程式碼從0x0080到0x00FF)是ISO 8859-1對ASCII的擴充套件。Unicode中不同部分的字元都同樣基於現有的標準。這是為了便於轉換。希臘字母表使用從0x0370到0x03FF的程式碼,斯拉夫語使用從0x0400到0x04FF的程式碼,美國使用從0x0530到0x058F的程式碼,希伯來語使用從0x0590到0x05FF的程式碼。中國、日本和韓國的象形文字(總稱為CJK)佔用了從0x3000到0x9FFF的程式碼。Unicode的最大好處是這裡只有一個字符集,沒有一點含糊。
15.衍生標準
Unicode是一個標準。UTF-8是其概念上的子集,UTF-8是具體的編碼標準。而UNICODE是所有想達到世界統一編碼標準的標準。UTF-8標準就是Unicode(ISO10646)標準的一種變形方式,
UTF的全稱是:Unicode/UCS Transformation Format,其實有兩種UTF,一種是UTF-8,一種是UTF-16,
不過UTF-16使用較少,其對應關係如下:
在Unicode中編碼為 0000 - 007F 的 UTF-8 中編碼形式為: 0xxxxxxx
在Unicode中編碼為 0080 - 07FF 的 UTF-8 中編碼形式為: 110xxxxx 10xxxxxx
在Unicode中編碼為 0000 - 007F 的 UTF-8 中編碼形式為: 1110xxxx 10xxxxxx 10xxxxxx
utf-8是unicode的一個新的編碼標準,其實unicode有過好幾個標準.我們知道一直以來使用的unicode字元內碼都是16位,它實際上還不能把全世界的所有字元編在一個平面系統,比如中國的藏文等小語種,所以utf-8擴充套件到了32位,也就是說理論在utf-8中可容納二的三十二次方個字元. UNICODE的思想就是想把所有的字元統一編碼,實現一個統一的標準.big5、gb都是獨立的字符集,這也叫做遠東字符集,把它拿到德文版的WINDOWS上可能將會引起字元編碼的衝突....早期的WINDOWS預設的字符集是ANSI.notepad中輸入的漢字是本地編碼,但在NT/2000內部是可以直接支援UNICODE的。notepad.exe在WIN95和98中都是ANSI字元,在NT中則是UNICODE.ANSI和UNICODE可以方便的實現對應對映,也就是轉換
ASCII是8位範圍內的字符集,對於範圍之外的字元如漢字它是無法表達的。unicode是16位範圍內的字符集,對於不同地區的字元分割槽分配,unicode是多個IT巨頭共同制定的字元編碼標準。如果在unicode環境下比如WINDOWS NT上,一個字元佔兩位元組16位,而在ANSI環境下如WINDOWS98下一個字元佔一個位元組8位.Unicode字元是16位寬,最多允許65,535字元,資料型別被稱為WCHAR。
對於已有的ANSI字元,unicode簡單的將其擴充套件為16位:比如ANSI"A"=0x43,則對應的UNICODE為
"A"= 0x0043
而ASCII用七存放128個字元,ASCII是一個真正的美國標準,所以它不能滿足其他國家的需要,例如斯拉夫語的字母和漢字於是出現了Windows ANSI字符集,是一種擴充套件的ASCII碼,用8位存放字元,低128位仍然存放原來的ASCII碼,
而高128位加入了希臘字母等
if def UNICODE
TCHAR = wchar
else
TCHAR = char
你需要在Project\Settings\C/C++\Preprocesser definitions中新增UNICODE和_UNICODE
UINCODE,_UNICODE都要定義。不定義_UNICODE的話,用SetText(HWND,LPCTSTR),將被解釋為SetTextA(HWND,LPTSTR),這時API將把你給的Unicode字串看作ANSI字串,顯示亂碼。因為windows API是已經編譯好存在於dll中的,由於不管UNICODE還是ANSI字串,都被看作一段buffer,如"0B A3 00 35 24 3C 00 00"如果按ANSI讀,因為ANSI字串是以'\0'結束的,所以只能讀到兩位元組"0B A3 \0",如果按UNICODE讀,將完整的讀到'\0\0'結束。
由於UNICODE沒有額外的指示位,所以系統必須知道你提供的字串是哪種格式。此外,UNICODE好象是ANSI C++規定的,_UNICODE是windows SDK提供的。如果不編寫windows程式,可以只定義UNICODE。
開發過程:
圍繞著檔案讀寫、字串處理展開。檔案主要有兩種:.txt和.ini檔案
1. 在unicode和非unicode環境下字串做不同處理的,那麼需要參考以上9,10兩條,以適應不同環境得字串處理要求。
對檔案讀寫也一樣。只要呼叫相關介面函式時,引數中的字串前都加上_TEXT等相關巨集。如果寫成的那個檔案需要是unicode格式儲存的,那麼在建立檔案時需要加入一個位元組頭。
CFile file;
WCHAR szwBuffer[128];
WCHAR *pszUnicode = L"Unicode string\n"; // unicode string
CHAR *pszAnsi = "Ansi string\n"; // ansi string
WORD wSignature = 0xFEFF;
file.Open(TEXT("Test.txt"), CFile::modeCreate|CFile::modeWrite);
file.Write(&wSignature, 2);
file.Write(pszUnicode, lstrlenW(pszUnicode) * sizeof(WCHAR));
// explicitly use lstrlenW function
MultiByteToWideChar(CP_ACP, 0, pszAnsi, -1, szwBuffer, 128);
file.Write(szwBuffer, lstrlenW(szwBuffer) * sizeof(WCHAR));
file.Close();
//以上這段程式碼在unicode和非unicode環境下都有效。這裡顯式的指明用Unicode來進行操作。
2. 在非unicode環境下,預設呼叫的都是ANSI格式的字串,此時TCHAR轉換為CHAR型別的,除非顯式定義WCHAR。所以在這個環境下,如果讀取unicode檔案,那麼首先需要移動2個位元組,然後讀取得字串需要用MultiByteToWideChar來轉換,轉換後字串資訊才代表unicode資料。
3. 在unicode環境下,預設呼叫得都是unicode格式得字串,也就是寬字元,此時TCHAR轉換為WCHAR,相關得API函式也都呼叫寬字元型別的函式。此時讀取unicode檔案也和上面一樣,但是讀取得資料是WCHAR的,如果要轉換成ANSI格式,需要呼叫WideCharToMultiByte。如果讀取ANSI的,則不用移動兩個位元組,直接讀取然後視需要轉換即可。
某些語言(如韓語)必須在unicode環境下才能顯示,這種情況下,在非unicode環境下開發,就算用字串函式轉換也不能達到顯示文字的目的,因為此時呼叫得API函式是用ANSI的(雖然底層都是用UNICODE處理但是處理結果是按照程式設計師呼叫的API來顯示的)。所以必須用unicode來開發。