1. 程式人生 > >LPTSTR、LPCSTR、LPCTSTR、LPSTR的來源及意義

LPTSTR、LPCSTR、LPCTSTR、LPSTR的來源及意義

UNICODE:它是用兩個位元組表示一個字元的方法。比如字元'A'在ASCII下面是一個字元,可'A'在UNICODE下面是兩個字元,高字元用0填充,而且漢字'程'在ASCII下面是兩個位元組,而在UNICODE下仍舊是兩個位元組
。UNICODE的用處就是定長表示世界文字,據統計,用兩個位元組可以編碼現存的所有文字而沒有二義。

  
MBCS,它是多位元組字符集,它是不定長表示世界文字的編碼。MBCS表示英文字母時就和ASCII一樣(這也是我們容易把MBCS和ASCII搞混的原因),但表示其他文字時就需要用多位元組。  


WINDOWS 下面的程式設計可以支援MBCS和UNICODE兩種編碼的字串,具體用那種就看你定義了MBCS巨集還是UNICODE巨集。MBCS巨集對應的字串指標 是char*也就是LPSTR,UNICODE對應的指標是unsigned   short*也就是LPWSTR,為了寫程式方便微軟定義了型別LPTSTR,在MBCS下他就是char*,   在UNICODE下它是unsigned   char*,這樣你就可以重定義一個巨集進行不同字符集的轉換了。

LPTSTR、LPCSTR、LPCTSTR、LPSTR的意義:

LPSTR:32bit指標 指向一個字串,每個字元佔1位元組

LPCSTR:32-bit指標 指向一個字串,每個字元佔1位元組
LPCTSTR:32-bit指標 指向一個常字串,每字元可能佔1位元組或2位元組,取決於Unicode是否定義
LPTSTR:32-bit指標 每字元可能佔1位元組或2位元組,取決於Unicode是否定義

Windows使用兩種字符集ANSI和UNICODE,前者就是通常使用的單位元組方式,但這種方式處理象中文這樣的雙位元組字元不方便,容易出現半個漢字的情況。而後者是雙位元組方式,方便處理雙位元組字元。

WindowsNT 的所有與字元有關的函式都提供兩種方式的版本,而Windows9x只支援ANSI方式。_T一般同字常數相關,如_T("Hello"。如果你編譯一個 程式為ANSI方式,_T實際不起任何作用。而如果編譯一個程式為UNICODE方式,則編譯器會把"Hello"字串以UNICODE方式儲存。_T 和_L的區別在於,_L不管你是以什麼方式編譯,一律UNICODE方式儲存.

Windows核心程式設計的第一章。

L是表示字串資源為Unicode的。

比如
wchar_t Str[] = L"Hello World!";
這個就是雙子節儲存字元了。

_T是一個適配的巨集~


#ifdef _UNICODE的時候
_T就是L
沒有#ifdef _UNICODE的時候
_T就是ANSI的。

比如

LPTSTR lpStr = new TCHAR[32];
TCHAR* szBuf = _T("Hello");
以上兩句使得無論是在UNICODE編譯條件下都是正確編譯的。

而且MS推薦你使用相匹配的字串函式。
比如處理LPTSTR或者LPCTSTR 的時候,不要用strlen ,而是要用_tcslen

否則在UNICODE的編譯條件下,strlen不能處理 wchar_t*的字串。

T是非常有意思的一個符號(TCHAR、LPCTSTR、LPTSTR、_T()、_TEXT()...),它表示使用一種中間型別,既不明確表示使用 MBCS,也不明確表示使用 UNICODE。那到底使用哪種字符集?編譯的時候才決定

在vc++中有著各種字串的表示法,如您所說。        

首先char*   是指向ANSI字元陣列的指標,其中每個字元佔據8位(有效資料是除掉最高位的其他7位),這裡保持了與傳統的C,C++的相容。      

 LP的含義是長指標(long   pointer)。

LPSTR是一個指向以‘/0’結尾的ANSI字元陣列的指標,與char*可以互換使用,在win32中較多地使用 LPSTR。而LPCSTR中增加的‘C’的含義是“CONSTANT”(常量),表明這種資料型別的例項不能被使用它的API函式改變,除此之外,它與 LPSTR是等同的。    

    為了滿足程式程式碼國際化的需要,業界推出了Unicode標準,它提供了一種簡單和一致的表達字串的方法,所有字元中的位元組都是16位的值,其數量也可 以滿足差不多世界上所有書面語言字元的編碼需求,開發程式時使用Unicode(型別為wchar_t)是一種被鼓勵的做法。    

    LPWSTR與LPCWSTR由此產生,它們的含義類似於LPSTR與LPCSTR,只是字元資料是16位的wchar_t而不是char。        

 然後為了實現兩種編碼的通用,提出了TCHAR的定義:    

如果定義_UNICODE,宣告如下:     typedef   wchar_t   TCHAR;    

如果沒有定義_UNICODE,則宣告如下:     typedef   char   TCHAR;      

LPTSTR和LPCTSTR中的含義就是每個字元是這樣的TCHAR。        

CString類中的字元就是被宣告為TCHAR型別的,它提供了一個封裝好的類供使用者方便地使用。

LPTSTR、LPCSTR、LPCTSTR、LPSTR之間的轉換:


如何理解LPCTSTR型別?
2007-11-10 21:43


L表示long指標

這是為了相容Windows 3.1等16位作業系統遺留下來的,在win32中以及其他的32為作業系統中, long指標和near指標及far修飾符都是為了相容的作用。沒有實際意義。

P表示這是一個指標


C表示是一個常量

T表示在Win32環境中, 有一個_T巨集

這個巨集用來表示你的字元是否使用UNICODE, 如果你的程式定義了UNICODE或者其他相關的巨集,那麼這個字元或者字串將被作為UNICODE字串,否則就是標準的ANSI字串。


STR表示這個變數是一個字串

所以LPCTSTR就表示一個指向常固定地址的可以根據一些巨集定義改變語義的字串。
同樣, LPCSTR就只能是一個ANSI字串,在程式中我們大部分時間要使用帶T的型別定義。

LPCTSTR == const TCHAR *

CString 和 LPCTSTR 可以說通用。 原因在於CString定義的自動型別轉換,沒什麼奇特的,最簡單的C++操作符過載而已。

常 量字串ansi和unicode的區分是由巨集_T來決定的。但是用_T("abcd")時, 字串"abcd"就會根據編譯時的是否定一_UNICODE來決定是char* 還是 w_char*。 同樣,TCHAR 也是相同目的字元巨集。 看看定義就明白了。簡單起見,下面只介紹 ansi 的情況,unicode 可以類推。

ansi情況下,LPCTSTR 就是 const char*, 是常量字串(不能修改的)。
而LPTSTR 就是 char*, 即普通字串(非常量,可修改的)。
這兩種都是基本型別, 而CString 是 C++類, 相容這兩種基本型別是最起碼的任務了。

由於const char* 最簡單(常量,不涉及記憶體變更,操作迅速), CString 直接定義了一個型別轉換函式
operator LPCTSTR() {......}, 直接返回他所維護的字串。

當你需要一個const char* 而傳入了CString時, C++編譯器自動呼叫 CString過載的操作符 LPCTSTR()來進行隱式的型別轉換。
當需要CString , 而傳入了 const char* 時(其實 char* 也可以),C++編譯器則自動呼叫CString的建構函式來構造臨時的 CString物件。

因此CString 和 LPCTSTR 基本可以通用。


但是 LPTSTR又不同了,他是 char*, 意味著你隨時可能修改裡面的資料,這就需要記憶體管理了(如字串變長,原來的存貯空間就不夠了,則需要重新調整分配記憶體)。
所以 不能隨便的將 const char* 強制轉換成 char* 使用。
樓主舉的例子
LPSTR lpstr = (LPSTR)(LPCTSTR)string;
就是這種不安全的使用方法。

這個地方使用的是強制型別轉換,你都強制轉換了,C++編譯器當然不會拒絕你,但同時他也認為你確實知道自己要做的是什麼。因此是不會給出警告的。
強制的任意型別轉換是C(++)的一項強大之處,但也是一大弊端。這一問題在 vc6 以後的版本(僅針對vc而言)中得到逐步的改進(你需要更明確的型別轉換宣告)。

其實在很多地方都可以看到類似
LPSTR lpstr = (LPSTR)(LPCTSTR)string;
地用法,這種情況一般是函式的約束定義不夠完善的原因
, 比如一個函式接受一個字串引數的輸入,裡面對該字串又沒有任何的修改,那麼該引數就應該定義成 const char*, 但是很多初學者弄不清const地用法,或者是懶, 總之就是隨意寫成了 char* 。 這樣子傳入CString時就需要強制的轉換一下。

這種做法是不安全的,也是不被建議的用法,你必須完全明白、確認該字串沒有被修改

CString 轉換到 LPTSTR (char*), 預定的做法是呼叫CString的GetBuffer函式,使用完畢之後一般都要再呼叫ReleaseBuffer函式來確認修改 (某些情況下也有不呼叫ReleaseBuffer的,同樣你需要非常明確為什麼這麼做時才能這樣子處理,一般應用環境可以不考慮這種情況)。

同時需要注意的是, 在GetBuffer 和 ReleaseBuffer之間,CString分配了記憶體交由你來處理,因此不能再呼叫其他的CString函式。

CString 轉LPCTSTR:
CString cStr;
const char *lpctStr=(LPCTSTR)cStr;

LPCTSTR轉CString:
LPCTSTR lpctStr;
CString cStr=lpctStr;