1. 程式人生 > >C++ 過濾出字串的中文(GBK,UTF-8)

C++ 過濾出字串的中文(GBK,UTF-8)

最近在處理遊戲敏感詞之類的東西,為了加強遮蔽處理,所以需要過濾掉字串中的除漢字之外的是其他東西如數字,符號,英文字母等。

首先我查閱資料並寫了個函式:

示例:返回輸入字串中漢字的個數:

std::string StrWithOutSymbol(const std::string &source)
{    
    string sourceWithOutSymbol;

    int i = 0;
    while (source[i] != 0)
    {
        if (source[i] & 0x80 )
        {
            sourceWithOutSymbol += source[i];
            sourceWithOutSymbol += source[i + 1];
            i += 2;
        else
        {
            i ++;
        }
    }
    return
   sourceWithOutSymbol; 
}

這個函式的原理是ord($str)&0x80來判斷漢字 

80對應的二進位制程式碼為1000   0000,最高位為一,代表漢字漢字編碼格式通稱為10格式一個漢字佔2位元組,但只代表一個字元

"Windows中,中文簡體字符集的編碼是同時用1個位元組和2個位元組來表示的。當高位是0x00~0x7f時,為一個位元組,高位為0x80以上時用2個位元組表示"

當你發現一個位元組的內容大於0x7f,那它肯定是個(跟另外一個位元組拼湊成一個)漢字,如何判斷肯定大於0x7f呢?
0x7f(1111111)後面一個數就是0x80(10000000),所以想要大於0x7f,這個位元組的最高位都肯定是1,我們只需要判斷這個最高位是否為1就行了。

判斷方法:
位與(相同的位都是1的才為1,否則為0):
如:要判斷一個數的第三位是否是1,只要跟4(100)位與,判斷一個數的第2位是否為1就跟2(10)位與.
同理判斷第八位是否為1只要跟(10000000)也就是0x80位與了.

這裡為什麼不用>0x7f?php可能還行,但在其他強型別語言裡面,1個位元組的最高位用來標示負數,一個負數肯定不可能大於0x7f(最大的整數)


再舉個例子:
a的assic碼是97(1100001)
A的assic碼是65(1000001)

b的assic碼是98(1100010)
B的assic碼是66(1000010)

發現一個規律:一個a-z的字母,只要是小寫字母,第六位肯定是1,我們可以用這個來判斷大小寫:
這時候只要跟用以個字母跟0x20(100000)來位與判斷:

if(ord($a)&0x20){
        //大寫
}

如何把所有字母改成大寫?第六位的1改成0就行了: 
$a='a';
$a        = chr(ord($a)&(~0x20));
echo $a;

 

然後我信心滿滿的吧這個函式加入到專案中去,點選執行,輸入中文進行檢查,當!專案報錯了????陣列越界????

這是為什麼,我又定位到報錯的地方,發現我使用的cocos-lua,在向c++傳遞字串的時候傳進來的字串是以UTF-8來進行編碼的,我又去找UIF-8的編碼規則發現

UTF-8編碼規則:如果只有一個位元組則其最高二進位制位為0;如果是多位元組,其第一個位元組從最高位開始,連續的二進位制位值為1的個數決定了其編碼的位元組數,其餘各位元組均以10開頭。UTF-8轉換表表示如下:

 

 

 而我之前的是按照GBK編碼進行操作的,GBK每個中文字元只佔兩個位元組,而utf-8的話中文可能佔3個位元組,四個位元組,甚至是五個六個,所以用剛才那樣的函式就會有越界的情況發生,所以對用UTF-8進行編碼的字串,就需要進行另外的處理,所以我寫了一個新函式:

對UTF-8編碼的字串進行中文篩選的函式:

std::string censorStrWithOutSymbol(const std::string &source)
{    
    string sourceWithOutSymbol;

    int i = 0;
    while (source[i] != 0)
    {
        if (source[i] & 0x80 && source[i] & 0x40 && source[i] & 0x20)
        {
            int byteCount = 0;
            if (source[i] & 0x10)
            {
                byteCount = 4;
            }
            else
            {
                byteCount = 3;
            }
            for (int a = 0; a < byteCount; a++)
            {
                sourceWithOutSymbol += source[i];
                i++;
            }
        }
        else if (source[i] & 0x80 && source[i] & 0x40)
        {
            i += 2;
        }
        else
        {
            i += 1;
        }
    }
    return sourceWithOutSymbol;
}

點選執行,成功了!舒