Ansi與Unicode編碼的轉換及佔用位元組數

阿新 • • 發佈：2019-01-01

①、Ansi與Unicode簡要說明及各自的優缺點：

他們是兩種字元的編碼格式，Ansi=窄位元組，Unicode=寬位元組，Ansi用char格式表示一個字元，佔用一個位元組的儲存空間，最多表示255個字元，表示英文還可以，但對於中文、日文、韓文等語言來說就不夠用了，所以如果你的程式是Ansi編碼的話，那麼你寫的中文語言的程式拿到日文、韓文等系統上面就會出現亂碼。所以有了Unicode，用二個位元組去表示一個字元，被定義成 wchar_t 格式這樣就可以表示世界上絕大多數的語言了！但有利就有弊，缺點呢？就是空間佔用翻倍了，網路傳輸的資料量也增大了……

Ansi 窄位元組，Unicode寬位元組

Unicode可以表示世界上的大多數語言，國際化。但是佔用兩個位元組，網路傳輸不方便。

②、不同編碼格式下的字串處理及相互轉化：

         /************************************************************************/
	/* ANSI 窄位元組
	/************************************************************************/
	/*
	char a_char_1[10] = "MFC";
	char *a_char_2 = "MFC";
	PCHAR a_char_3 = "MFC";
	PSTR a_char_4 = "MFC";
	PCSTR a_char_5 = "MFC";
	LPSTR a_char_6 = "MFC";
	LPCSTR a_char_7 = "MFC";
	*/

	/************************************************************************/
	/* UNICODE 寬位元組
	/************************************************************************/
	/*
	wchar_t w_char_1[10] = L"MFC";
	wchar_t *w_char_2 = L"MFC";
	WCHAR *w_char_3 = L"MFC";
	PWCHAR w_char_4 =  L"MFC";
	PWSTR w_char_5 =  L"MFC";
	LPWSTR w_char_6 =  L"MFC";
	LPCWSTR w_char_7 =  L"MFC";
	*/
	/************************************************************************/
	/* T 通用型別                                           
	/************************************************************************/
	/*
	TCHAR t_char_1[10] = _T("MFC");
	PTSTR t_char_2 = _T("MFC");
	LPTSTR t_char_3 = _T("MFC");
	LPCTSTR t_char_4 = _T("MFC");
	*/

以上，其中：P代表指標的意思，STR代表字串的意思，L是長指標的意思，C代表const常量的意思，W代表wide寬位元組的意思，T可以理解為通用型別的意思.

③、不同編碼格式下的字串處理及相互轉化：

         /************************************************************************/
	/* 1:窄位元組轉換成寬位元組（使用系統API函式）
	/* 2:寬位元組轉成窄位元組 （使用系統API函式）
	/************************************************************************/
	/*
	char  *mChar = "MFC";
	TCHAR *mResult = AnsiToWideChar(mChar);
	delete []mResult;
	*/
	
	/*
	TCHAR *mChar = L"MFC";
	char *mResult = WideCharToAnsi(mChar);
	delete []mResult;
	*/

char *WideCharToAnsi(wchar_t *pWideChar)
{
	if(!pWideChar) return NULL;
	char *ansiChar = NULL;
	int needChar = WideCharToMultiByte(CP_ACP,0,pWideChar,-1, NULL, 0, NULL, NULL);
	if (needChar > 0)
	{
		needChar += 1;
		ansiChar = new char[needChar];
		ZeroMemory(ansiChar,needChar);
		WideCharToMultiByte(CP_ACP,0,pWideChar,-1, ansiChar, needChar, NULL, NULL);
	}
	return ansiChar;
}

wchar_t *AnsiToWideChar(char *pChar)
{
	if(!pChar) return NULL;
	wchar_t *wideChar = NULL;
	int needChar = MultiByteToWideChar(CP_ACP, 0, pChar, -1, NULL, 0);
	if (needChar > 0)
	{
		needChar += 1;
		wideChar = new wchar_t[needChar];
		ZeroMemory(wideChar, needChar*sizeof(wchar_t));
		MultiByteToWideChar(CP_ACP, 0, pChar, -1, wideChar, needChar);
	}
	return wideChar;
}

④、A2W、W2A、T2A、T2W 巨集的使用以及注意事項

 char  *mChar = "MFC";
 USES_CONVERSION;
 TCHAR *mResult = A2W(mChar);

不要在一個函式的迴圈體中使用 A2W 等字元轉換巨集，可能引起棧溢位

⑤、字串佔用位元組數：

● Ansi：
char szStr[] = "abc";
佔用位元組數求法：sizeof(szStr);

char *psz = "defgh";
佔用位元組數求法：strlen(psz)*sizeof(char);

● Unicode：
wchar_t szwStr[] = L"abc";
佔用位元組數求法：sizeof(szwStr);

wchar_t *pwsz = L"defgh";
佔用位元組數求法：wcslen(pwsz)*sizeof(wchar_t);

● 通用函式：
TCHAR szStr[] = _T("abc");
佔用位元組數求法：sizeof(szStr);

TCHAR *psz = _T("defgh");
佔用位元組數求法：_tcslen(psz)*sizeof(TCHAR);

Ansi與Unicode編碼的轉換及佔用位元組數

Ansi與Unicode編碼的轉換及佔用位元組數

MFC UTF-8與Unicode編碼轉換

ansi與unicode字串轉換

漢字、英文在不同編碼方式下佔用位元組數

mysql資料型別及佔用位元組數【mysql】

ANSI與Unicode之間的編碼轉換

js字符串與Unicode編碼互相轉換

C++ Unicode與UTF_8 編碼轉換

寬位元組與窄位元組（Ansi與Unicode）

JDBC讀取Oracle的US7ASCII編碼中文亂碼及不同編碼下漢字佔用位元組的問題

c++對編碼格式ANSI utf8 unicode 進行轉換

PowerDesigner概念模型與物理模型相互轉換及導出數據字典

（轉載）GBK、UTF8、UNICODE編碼轉換

不依賴任何系統API，用c語言實現gbk/utf8/unicode編碼轉換

C/C++中各種資料型別、結構體、類佔用位元組數分析與總結

[Java]字串轉Unicode編碼額外2個位元組的來源

js --- 中字串與unicode編碼

【131】Java把\u開頭的Unicode編碼轉換成漢字

java將Unicode編碼轉換為漢字

C++ UTF-8與 Unicode互相轉換

Ansi與Unicode編碼的轉換及佔用位元組數

相關推薦