[轉載]C/C++中的char,wchar,TCHAR
總體簡介: 由於字元編碼的不同,在C++中有三種對於字元型別:char, wchar_t , TCHAR。其實TCHAR不能算作一種型別,他緊緊是一個巨集。我們都知道,巨集在預編譯的時候會被替換成相應的內容。TCHAR 在使用多位元組編碼時被定義成char,在Unicode編碼時定義成wchar_t。
1.VC++中的char,wchar_t,TCHAR 大家一起做一個專案,經常發現有的人愛用strcpy等標準ANSI函式,有的人愛用_tXXXX函式,這個問題曾經搞的很混亂。為了統一,有必要把來龍去脈搞清楚。
為了搞清這些函式,就必須理請幾種字元型別的寫法。char就不用說了,先說一些wchar_t。wchar_t是Unicode字元的資料型別,它實際定義在<string.h>裡: typedef unsigned short wchar_t; 不能使用類似 strcpy這樣的ANSI C字串函式來處理wchar_t字串,必須使用wcs字首的函式,例如wcscpy。為了讓編譯器識別Unicode字串,必須以在前面加一個 “L”,例如: wchar_t *szTest=L"This is a Unicode string.";
下面在看看TCHAR。如果你希望同時為ANSI和Unicode編譯的原始碼,那就要include TChar.h。TCHAR是定義在其中的一個巨集,它視你是否定義了_UNICODE巨集而定義成char或者wchar_t。如果你使用了TCHAR,那麼就不應該使用ANSI的strXXX函式或者Unicode的wcsXXX函數了,而必須使用TChar.h中定義的_tcsXXX函式。另外,為了解決剛才提到帶“L”的問題,TChar.h中定義了一個巨集:“_TEXT”。
以strcpy函式為例子,總結一下: .如果你想使用ANSI字串,那麼請使用這一套寫法: char szString[100]; strcpy(szString,"test"); .如果你想使用Unicode字串,那麼請使用這一套: wchar_t szString[100]; wcscpyszString,L"test"); .如果你想通過定義_UNICODE巨集,而編譯ANSI或者Unicode字串程式碼: TCHAR szString[100]; _tcscpy(szString,_TEXT("test"));
2.字串及處理之三: 使用TCHAR系列方案 使用TCHAR系列方案編寫程式 TCHAR是一種字串型別,它讓你在以MBCS和UNNICODE來build程式時可以使用同樣的程式碼,不需要使用繁瑣的巨集定義來包含你的程式碼。 TCHAR的引入,主要是在Tchar.h檔案中,該檔案包含這方面的重要的定義資訊。 對於包含了對str函式或wcs函式進行顯式呼叫的程式碼來說,無法非常容易地同時為ANSI和Unicode對這些程式碼進行編譯。本章前面說過,可以建立同時為ANSI和Unicode進行編譯的單個原始碼檔案。若要建立雙重功能,必須包含TChar.h檔案,而不是包含String.h檔案。 TChar.h檔案的唯一作用是幫助建立ANSI/Unicode通用原始碼檔案。它包含你應該用在原始碼中的一組巨集,而不應該直接呼叫str函式或者 wcs函式。如果在編譯原始碼檔案時定義了_UNICODE,這些巨集就會引用wcs這組函式。如果沒有定義_UNICODE,那麼這些巨集將引用str這組巨集。 TCHAR的定義如下: #ifdef UNICODE typedef wchar_t TCHAR; #else typedef char TCHAR; #endif 所以用MBCS來build時,TCHAR是char,使用UNICODE時,TCHAR是wchar_t。 還有一個巨集來處理定義Unicode字串常量時所需的L字首。 #ifdef UNICODE #define _T(x) L##x #define _TEXT(x) L##x #define __T(x) L##x #else #define _T(x) x #define _TEXT(x) x #define __T(x) x #endif ## 是一個預處理操作符,它可以把兩個引數連在一起。如果你的程式碼中需要字串常量,在它前面加上_T巨集。如果你使用Unicode來build,它會在字串常量前加上L字首。 TCHAR szNewText[] = _T("we love Bob!"); _UNICODE巨集用於C執行期標頭檔案,而UNICODE巨集則用於Windows標頭檔案。當編譯原始碼模組時,通常必須同時定義這兩個巨集。 像是用巨集來隱藏SetWindowTextA/W的細節一樣,還有很多可以供你使用的巨集來實現str***()和_mbs***()等字串函式。例如,你可以使用_tcsrchr巨集來替換strrchr()、_mbsrchr()和wcsrchr()。_tcsrchr根據你預定義的巨集是_MBCS還是 UNICODE來擴充套件成正確的函式,就象SetWindowText所作的一樣。 不僅str***()函式有TCHAR巨集。其他的函式如, _stprintf(代替sprinft()和swprintf()),_tfopen(代替fopen()和_wfopen())。 MSDN中"Generic-Text Routine Mappings."標題下有完整的巨集列表。
3.字串及處理之二: 基本字串型別及函式 常用的字串型別有:char * ,wchar_t * ,WCHAR * , TCHAR * char * 最基本的型別,其對應的一組處理函式是以str...開頭的標準的ANSI C字串函式。 wchar_t * 是這樣定義的:typedef unsigned short wchar_t; 另外,在標頭檔案中有這樣的定義:typedef wchar_t WCHAR; 所以WCHAR實際就是wchar_t wchar_t * 是16-bit UNICODE character(寬字元)所使用的基本型別。 其對應的一組處理函式是以wcs...開頭的標準的字串函式。 常用的字串處理函式和巨集: 1、str 開頭的 函式 處理SBCS字串 2、wcs 開頭的 函式 處理寬字串,wcs是寬字串的英文縮寫 所有的unicode函式均以wcs開頭。若要呼叫Unicode函式,只需用字首wcs來取代ANSI字串函式的字首str即可。 對於每一個標準的ANSI C字串函式,基本都有等價的unicode函式. 3、_mbs 開頭的 函式 處理DBCS字串 微軟還在它的CRT(C runtime library)中增加了操作DBCS字串的版本。Str***()函式都有對應名字的DBCS版本_mbs***()。 如果你料到可能會遇到DBCS字串(如果你的軟體會被安裝在使用DBCS編碼的國家,如中國,日本等,你就可能會),你應該使用_mbs***()函式,因為他們也可以處理SBCS字串。(一個DBCS字串也可能含有單位元組字元,這就是為什麼_mbs***()函式也能處理SBCS字串的原因)。微軟還提供了幾個函式方便對dbcs的處理 , 見後面的描述。 如果只是呼叫strlen函式,那麼你無法真正瞭解字串中究竟有多少字元,它只能告訴你到達結尾的0之前有多少個位元組。ANSI的C執行期庫中沒有配備相應的函式,使你能夠對雙位元組字符集進行操作。但是,Microsoft Visual C++的執行期庫卻包含許多函式,如_mbslen ,它可以用來操作多位元組(既包括單位元組也包括雙位元組)字串。 4、_tcs 開頭的 巨集 配合TCHAR使用 根據預定義分別擴充套件為str wcs _mbs, 見後面的描述。 5、l開頭的windows自帶的寬字元處理函式 6、大小寫兼有的 windows自帶的寬字元處理函式
5和6見後面的描述 更進一步的字串以及其指標的型別定義
由於Win32 API文件的函式列表使用函式的常用名字(例如, "SetWindowText"),所有的字串都是用TCHAR來定義的。(除了XP中引入的只適用於Unicode的API)。下面列出一些常用的 typedefs,你可以在msdn中看到他們。 type Meaning in MBCS builds Meaning in Unicode builds WCHAR wchar_t wchar_t LPSTR char* char* LPCSTR const char* const char* LPWSTR wchar_t* wchar_t* LPCWSTR const wchar_t* const wchar_t* TCHAR char wchar_t LPTSTR TCHAR* TCHAR* LPCTSTR const TCHAR* const TCHAR*
4.strings(字串)詳解(一) 之所以拋棄char*的字串而選用C++標準程式庫中的string類,是因為他和前者比較起來,不必擔心記憶體是否足夠、字串長度等等,而且作為一個類出現,他整合的操作函式足以完成我們大多數情況下(甚至是100%)的需要。我們可以用 = 進行賦值操作,== 進行比較,+ 做串聯(是不是很簡單?)。我們儘可以把它看成是C++的基本資料型別。 好了,進入正題……… 首先,為了在我們的程式中使用 string型別,我們必須包含標頭檔案 <string>。如下: #include <string> //注意這裡不是string.h string.h是C字串標頭檔案 1.宣告一個C++字串 宣告一個字串變數很簡單: string Str; 這樣我們就聲明瞭一個字串變數,但既然是一個類,就有建構函式和解構函式。上面的宣告沒有傳入引數,所以就直接使用了string的預設的建構函式,這個函式所作的就是把Str初始化為一個空字串。String類的建構函式和解構函式如下: a) string s; //生成一個空字串s b) string s(str) //拷貝建構函式 生成str的複製品 c) string s(str,stridx) //將字串str內“始於位置stridx”的部分當作字串的初值 d) string s(str,stridx,strlen) //將字串str內“始於stridx且長度頂多strlen”的部分作為字串的初值 e) string s(cstr) //將C字串作為s的初值 f) string s(chars,chars_len) //將C字串前chars_len個字元作為字串s的初值。 g) string s(num,c) //生成一個字串,包含num個c字元 h) string s(beg,end) //以區間beg;end(不包含end)內的字元作為字串s的初值 i) s.~string() //銷燬所有字元,釋放記憶體 都很簡單,我就不解釋了。 2.字串操作函式 這裡是C++字串的重點,我先把各種操作函式羅列出來,不喜歡把所有函式都看完的人可以在這裡找自己喜歡的函式,再到後面看他的詳細解釋。 a) =,assign() //賦以新值 b) swap() //交換兩個字串的內容 c) +=,append(),push_back() //在尾部新增字元 d) insert() //插入字元 e) erase() //刪除字元 f) clear() //刪除全部字元 g) replace() //替換字元 h) + //串聯字串 i) ==,!=,<,<=,>,>=,compare() //比較字串 j) size(),length() //返回字元數量 k) max_size() //返回字元的可能最大個數 l) empty() //判斷字串是否為空 m) capacity() //返回重新分配之前的字元容量 n) reserve() //保留一定量記憶體以容納一定數量的字元 o) [ ], at() //存取單一字元 p) >>,getline() //從stream讀取某值 q) << //將謀值寫入stream r) copy() //將某值賦值為一個C_string s) c_str() //將內容以C_string返回 t) data() //將內容以字元陣列形式返回 u) substr() //返回某個子字串 v)查詢函式 w)begin() end() //提供類似STL的迭代器支援 x) rbegin() rend() //逆向迭代器 y) get_allocator() //返回配置器 下面詳細介紹: 2.1 C++字串和C字串的轉換 C++提供的由C++字串得到對應的 C_string的方法是使用data()、c_str()和copy(),其中,data()以字元陣列的形式返回字串內容,但並不新增’\0’。 c_str()返回一個以‘\0’結尾的字元陣列,而copy()則把字串的內容複製或寫入既有的c_string或字元陣列內。C++字串並不以’ \0’結尾。我的建議是在程式中能使用C++字串就使用,除非萬不得已不選用c_string。由於只是簡單介紹,詳細介紹掠過,誰想進一步瞭解使用中的注意事項可以給我留言(到我的收件箱)。我詳細解釋。 2.2 大小和容量函式 一個C++字串存在三種大小:a)現有的字元數,函式是size()和length(),他們等效。Empty()用來檢查字串是否為空。b)max_size() 這個大小是指當前C++字串最多能包含的字元數,很可能和機器本身的限制或者字串所在位置連續記憶體的大小有關係。我們一般情況下不用關心他,應該大小足夠我們用的。但是不夠用的話,會丟擲length_error異常c)capacity()重新分配記憶體之前 string所能包含的最大字元數。這裡另一個需要指出的是reserve()函式,這個函式為string重新分配記憶體。重新分配的大小由其引數決定,預設引數為0,這時候會對string進行非強制性縮減。
還有必要再重複一下C++字串和C字串轉換的問題,許多人會遇到這樣的問題,自己做的程式要呼叫別人的函式、類什麼的(比如資料庫連線函式Connect(char*,char*)),但別人的函式引數用的是char*形式的,而我們知道,c_str()、data()返回的字元陣列由該字串擁有,所以是一種const char*,要想作為上面提及的函式的引數,還必須拷貝到一個char*,而我們的原則是能不使用C字串就不使用。那麼,這時候我們的處理方式是:如果此函式對引數(也就是char*)的內容不修改的話,我們可以這樣Connect((char*)UserID.c_str(), (char*)PassWD.c_str()),但是這時候是存在危險的,因為這樣轉換後的字串其實是可以修改的(有興趣地可以自己試一試),所以我強調除非函式呼叫的時候不對引數進行修改,否則必須拷貝到一個char*上去。當然,更穩妥的辦法是無論什麼情況都拷貝到一個char*上去。同時我們也祈禱現在仍然使用C字串進行程式設計的高手們(說他們是高手一點兒也不為過,也許在我們還穿開襠褲的時候他們就開始程式設計了,哈哈…)寫的函式都比較規範,那樣我們就不必進行強制轉換了。 2.3元素存取 我們可以使用下標操作符[]和函式at()對元素包含的字元進行訪問。但是應該注意的是操作符[]並不檢查索引是否有效(有效索引0~str.length()),如果索引失效,會引起未定義的行為。而at()會檢查,如果使用 at()的時候索引無效,會丟擲out_of_range異常。 有一個例外不得不說,const string a;的操作符[]對索引值是a.length()仍然有效,其返回值是’\0’。其他的各種情況,a.length()索引都是無效的。舉例如下: const string Cstr(“const string”); string Str(“string”); Str[3]; //ok Str.at(3); //ok Str[100]; //未定義的行為 Str.at(100); //throw out_of_range Str[Str.length()] // 未定義行為 Cstr[Cstr.length()] //返回 ‘\0’ Str.at(Str.length());//throw out_of_range Cstr.at(Cstr.length()) ////throw out_of_range 我不贊成類似於下面的引用或指標賦值: char& r=s[2]; char* p= &s[3]; 因為一旦發生重新分配,r,p立即失效。避免的方法就是不使用。 2.4比較函式 C++字串支援常見的比較操作符(>,>=,<,<=,==,!=),甚至支援string與C-string的比較(如 str<”hello”)。在使用>,>=,<,<=這些操作符的時候是根據“當前字元特性”將字元按字典順序進行逐一得比較。字典排序靠前的字元小,比較的順序是從前向後比較,遇到不相等的字元就按這個位置上的兩個字元的比較結果確定兩個字串的大小。同時,string(“aaaa”) <string(aaaaa)。 另一個功能強大的比較函式是成員函式compare()。他支援多引數處理,支援用索引值和長度定位子串來進行比較。他返回一個整數來表示比較結果,返回值意義如下:0-相等 〉0-大於 <0-小於。舉例如下: string s(“abcd”); s.compare(“abcd”); //返回0 s.compare(“dcba”); //返回一個小於0的值 s.compare(“ab”); //返回大於0的值 s.compare(s); //相等 s.compare(0,2,s,2,2); //用”ab”和”cd”進行比較 小於零 s.compare(1,2,”bcx”,2); //用”bc”和”bc”比較。 怎麼樣?功能夠全的吧!什麼?還不能滿足你的胃口?好吧,那等著,後面有更個性化的比較演算法。先給個提示,使用的是STL的比較演算法。什麼?對STL一竅不通?靠,你重修吧! 2.5 更改內容 這在字串的操作中佔了很大一部分。 首先講賦值,第一個賦值方法當然是使用操作符=,新值可以是string(如:s=ns) 、c_string(如:s=”gaint”)甚至單一字元(如:s=’j’)。還可以使用成員函式assign(),這個成員函式可以使你更靈活的對字串賦值。還是舉例說明吧: s.assign(str); //不說 s.assign(str,1,3);//如果str 是”iamangel” 就是把”ama”賦給字串 s.assign(str,2,string::npos);//把字串str從索引值2 開始到結尾賦給s s.assign(“gaint”); //不說 s.assign(“nico”,5);//把’n’ ‘I’ ‘c’ ‘o’ ‘\0’賦給字串 s.assign(5,’x’);//把五個x賦給字串 把字串清空的方法有三個:s=””; s.clear();s.erase();(我越來越覺得舉例比說話讓別人容易懂!)。 string提供了很多函式用於插入(insert)、刪除(erase)、替換(replace)、增加字元。 先說增加字元(這裡說的增加是在尾巴上),函式有 +=、append()、push_back()。舉例如下: s+=str;//加個字串 s+=”my name is jiayp”;//加個C字串 s+=’a’;//加個字元 s.append(str); s.append(str,1,3);// 不解釋了 同前面的函式引數assign的解釋 s.append(str,2,string::npos)//不解釋了 s.append(“my name is jiayp”); s.append(“nico”,5); s.append(5,’x’); s.push_back(‘a’);// 這個函式只能增加單個字元 對STL熟悉的理解起來很簡單 也許你需要在string中間的某個位置插入字串,這時候你可以用 insert()函式,這個函式需要你指定一個安插位置的索引,被插入的字串將放在這個索引的後面。 s.insert(0,”my name”); s.insert(1,str); 這種形式的insert()函式不支援傳入單個字元,這時的單個字元必須寫成字串形式(讓人噁心)。既然你覺得噁心,那就不得不繼續讀下面一段話:為了插入單個字元,insert()函式提供了兩個對插入單個字元操作的過載函式:insert(size_type index,size_type num,chart c)和insert(iterator pos,size_type num,chart c)。其中size_type是無符號整數,iterator是char*,所以,你這麼呼叫insert函式是不行的:insert(0,1,’j’);這時候第一個引數將轉換成哪一個呢?所以你必須這麼寫:insert((string::size_type)0,1,’j’)!第二種形式指出了使用迭代器安插字元的形式,在後面會提及。順便提一下,string有很多操作是使用STL的迭代器的,他也儘量做得和STL靠近。 刪除函式erase()的形式也有好幾種(真煩!),替換函式 replace()也有好幾個。舉例吧: string s=”il8n”; s.replace(1,2,”nternationalizatio”);// 從索引1開始的2個替換成後面的C_string s.erase(13);//從索引13開始往後全刪除 s.erase(7,5);// 從索引7開始往後刪5個 2.6提取子串和字串連線 題取子串的函式是:substr(),形式如下: s.substr();// 返回s的全部內容 s.substr(11);//從索引11往後的子串 s.substr(5,6);//從索引5開始6個字元 把兩個字串結合起來的函式是+。(誰不明白請致電120) 2.7輸入輸出操作 1.>> 從輸入流讀取一個string。 2.<< 把一個string寫入輸出流。 另一個函式就是getline(),他從輸入流讀取一行內容,直到遇到分行符或到了檔案尾。 2.8搜尋與查詢 查詢函式很多,功能也很強大,包括了: find() rfind() find_first_of() find_last_of() find_first_not_of() find_last_not_of() 這些函式返回符合搜尋條件的字元區間內的第一個字元的索引,沒找到目標就返回npos。所有的函式的引數說明如下: 第一個引數是被搜尋的物件。第二個引數(可有可無)指出string內的搜尋起點索引,第三個引數(可有可無)指出搜尋的字元個數。比較簡單,不多說 不理解的可以向我提出,我再仔細的解答。當然,更加強大的STL搜尋在後面會有提及。 最後再說說npos的含義,string::npos的型別是string::size_type,所以,一旦需要把一個索引與npos相比,這個索引值必須是string::size)type型別的,更多的情況下,我們可以直接把函式和npos進行比較(如:if(s.find(“jia”)==string::npos))。 第二部分是關於 C++字串對迭代器的支援的,視大家的需要我將寫出來(意思就是不需要就算了,我樂得輕省,哈哈…)。 好了,大概的對string型別進行了闡述,希望起到拋磚引玉的作用,讓初學者對string有個瞭解而不必已開始就面對複雜的內部結構和無數個注意事項。對字串更詳細地講解有很多參考書,其實我的內容也是從C++標準程式庫得來的,加上幾句自己的看法,所以要感謝這本書的作者和譯者。任何人對本文進行引用都要標明作者是Nicolai M.Josuttis 譯者是侯捷/孟巖。不過不要提及我,任何觀點的錯誤都與我無關(除了這裡邊體現我主觀想法的幾句話,也就那幾句話)。