C++ 過濾出字串的中文（GBK，UTF-8）

阿新 • • 發佈：2019-07-28

最近在處理遊戲敏感詞之類的東西，為了加強遮蔽處理，所以需要過濾掉字串中的除漢字之外的是其他東西如數字，符號，英文字母等。

首先我查閱資料並寫了個函式：

示例：返回輸入字串中漢字的個數：

std::string StrWithOutSymbol(const std::string &source)
{    
    string sourceWithOutSymbol;

    int i = 0;
    while (source[i] != 0)
    {
        if (source[i] & 0x80 )
        {
            sourceWithOutSymbol += source[i];
            sourceWithOutSymbol += source[i + 1];
            i += 2;
        else
        {
            i ++;
        }
    }
    return

 　　sourceWithOutSymbol; 
}

這個函式的原理是ord($str)&0x80來判斷漢字

80對應的二進位制程式碼為1000 0000,最高位為一,代表漢字漢字編碼格式通稱為10格式一個漢字佔2位元組,但只代表一個字元

"Windows中，中文簡體字符集的編碼是同時用1個位元組和2個位元組來表示的。當高位是0x00～0x7f時，為一個位元組，高位為0x80以上時用2個位元組表示"

當你發現一個位元組的內容大於0x7f,那它肯定是個(跟另外一個位元組拼湊成一個)漢字,如何判斷肯定大於0x7f呢?
0x7f(1111111)後面一個數就是0x80(10000000),所以想要大於0x7f，這個位元組的最高位都肯定是1,我們只需要判斷這個最高位是否為1就行了。

判斷方法:
位與(相同的位都是1的才為1，否則為0):
如:要判斷一個數的第三位是否是1，只要跟4(100)位與,判斷一個數的第2位是否為1就跟2(10)位與.
同理判斷第八位是否為1只要跟(10000000)也就是0x80位與了.

這裡為什麼不用>0x7f？php可能還行，但在其他強型別語言裡面，1個位元組的最高位用來標示負數，一個負數肯定不可能大於0x7f(最大的整數)

再舉個例子:
a的assic碼是97(1100001)
A的assic碼是65(1000001)

b的assic碼是98(1100010)
B的assic碼是66(1000010)

發現一個規律:一個a-z的字母,只要是小寫字母，第六位肯定是1，我們可以用這個來判斷大小寫:
這時候只要跟用以個字母跟0x20(100000)來位與判斷:

if(ord($a)&0x20){
//大寫
}

如何把所有字母改成大寫?第六位的1改成0就行了:
$a='a';
$a = chr(ord($a)&(~0x20));
echo $a;

然後我信心滿滿的吧這個函式加入到專案中去，點選執行，輸入中文進行檢查，當！專案報錯了？？？？陣列越界？？？？

這是為什麼，我又定位到報錯的地方，發現我使用的cocos-lua，在向c++傳遞字串的時候傳進來的字串是以UTF-8來進行編碼的，我又去找UIF-8的編碼規則發現

UTF-8編碼規則：如果只有一個位元組則其最高二進位制位為0；如果是多位元組，其第一個位元組從最高位開始，連續的二進位制位值為1的個數決定了其編碼的位元組數，其餘各位元組均以10開頭。UTF-8轉換表表示如下：

而我之前的是按照GBK編碼進行操作的，GBK每個中文字元只佔兩個位元組，而utf-8的話中文可能佔3個位元組，四個位元組，甚至是五個六個，所以用剛才那樣的函式就會有越界的情況發生，所以對用UTF-8進行編碼的字串，就需要進行另外的處理，所以我寫了一個新函式：

對UTF-8編碼的字串進行中文篩選的函式：

std::string censorStrWithOutSymbol(const std::string &source)
{    
    string sourceWithOutSymbol;

    int i = 0;
    while (source[i] != 0)
    {
        if (source[i] & 0x80 && source[i] & 0x40 && source[i] & 0x20)
        {
            int byteCount = 0;
            if (source[i] & 0x10)
            {
                byteCount = 4;
            }
            else
            {
                byteCount = 3;
            }
            for (int a = 0; a < byteCount; a++)
            {
                sourceWithOutSymbol += source[i];
                i++;
            }
        }
        else if (source[i] & 0x80 && source[i] & 0x40)
        {
            i += 2;
        }
        else
        {
            i += 1;
        }
    }
    return sourceWithOutSymbol;
}

點選執行，成功了！舒

C++ 過濾出字串的中文（GBK，UTF-8）

最近在處理遊戲敏感詞之類的東西，為了加強遮蔽處理，所以需要過濾掉字串中的除漢字之外的是其他東西如數字，符號，英文字母等。首先我查閱資料並寫了個函式：示例：返回輸入字串中漢字的個數： std::string StrWithOutSymbol(const std::string &sourc

Codeforces Round #390 (Div. 2)(A,B,C(記憶化搜尋),D（貪心，優先佇列）)

/* Codeforces Round #390 (Div. 2) 時間: 2017/02/16 A. Lesha and array splitting 題意：將集合分成幾個小集合，要求小集合的和不為0. 題解：遍歷過去，一直到不滿足集合並數字非0前生成一個集合 */ #

Java 中文字串編碼之GBK轉UTF-8

寫過兩篇關於編碼的文章了，以為自己比較瞭解編碼了呢？！結果今天又結結實實的上了一課。以前轉來轉去解決的問題終歸還是簡單的情形。即iso-8859-1轉utf-8，或者iso-8859-1轉gbk，gb2312之類。這種無損轉換，一行程式碼就搞定。今天遇到了gbk轉utf-8。無論怎麼轉，都是亂碼。一

Python練習題7（統計不同字元數量）：編寫一個函式，分別統計出傳入字串引數（可能不只一個引數）的英文字母、空格、數字和其它字元的個數(比如：'hello world,123456,Change the world by program!',這句話有字母33個，數字6個，空格5個，

方法一：用內建方法isdigit()判斷數字，isspace()判斷空格，isalpha()判斷字母，然後格式化輸出 1 def str_count(msgs): 2 letter_count = 0 3 num_count = 0 4 space_count = 0

編寫一個函式，分別統計出傳入字串引數（可能不止一個引數）的英文字母，空格，數字和其他字元的個數

>>> def gs(*string): yw,kg,sz,qt=0,0,0,0 for str1 in string: for i in str1: if('0'&

C# .NET彈出視窗彙總（精華，麒麟創想）

注://關閉,父視窗彈出對話方塊,子視窗直接關閉 this.Response.Write("<script language=javascript>window.close();</script>"); //關閉,父視窗和子視窗都不彈出對話方塊,直接關閉 this.Response

Java模組 -- String字串操作（數字，漢字，特殊符號過濾/擷取）

使用正則表示式，擷取String字串中的數字、漢字，以及過濾特殊符號 /** * 提取字串中的數字 * * @param number * @return * @throws Exception *

C語言 MOOC 單詞長度計算，GPS資訊處理字串操作（函式，切分，尋找，轉換）

1.單詞長度題目內容：你的程式要讀入一行文字，其中以空格分隔為若干個單詞，以‘.’結束。你要輸出這行文字中每個單詞的長度。這裡的單詞與語言無關，可以包括各種符號，比如“it's”算一個單詞，長度為4。注意，行中可能出現連續的空格。輸入格式:輸入在一行中給出一行文字，以‘.’結

c++字串的轉化（string，char* tchar*）

1.將string轉化為char* string s("你好"); char *nihao=s.data(); char *nihao=s.c_str(); 2.將string轉化為TCHAR[] string res("你好"); TCHAR wc[MAX_PATH];

Unity 使用C/C++ 跨平臺終極解決方式（PC，iOS，Android，以及支持C/C++的平臺）

log initial ava open tis called 文章 sharp strong PC的事實上根本不用說，畢竟C#和C++交互的文章已經夠多了，當然我

Unity 使用C/C++ 跨平臺終極解決方案（PC，iOS，Android，以及支持C/C++的平臺）

細節 -h comment 個人 tle lan source 多說 sharp https://blog.csdn.net/fg5823820/article/details/47865741 PC的其實根本不用說，畢竟C#和C++交互的文章已經夠多了，當然我自認為經過幾

C#時間點字串轉換為日期，當天時間點判斷

一、時間點轉換在開發中經常遇到，在當天中某個時間段中，才允許執行的操作，然而這個時間段需要自由指定。總結：在C#中 1.將時間點，轉換成日期物件，常用操作Convert.ToDateTime

C#中的字串類（string類）

1.字串搜尋： string s="ABC科學"; int i=s.IndexOf("科"); 注意：1）索引從0開始，如果沒有找到則返回值為-1； 2）C#中，ASCII和

C#對資料庫的操作（查詢，刪除，更新）

查詢： static IQueryable<Outlet> Query(string Region, string DC, string CustomerCode, string KA, string OutletCode, string NestleOutletCode

C++及Windows異常處理（try，catch; try,finally; try, except）

C++及Windows異常處理（try，catch; __try,__finally; __try, __except）題目： int* p = 0x00000000; // pointer to NULL puts( "hello "); __try{ puts( "

C++基礎第三章（使用類和物件）中篇（物件陣列，物件指標，常物件）

一.1，物件陣列我們定義普通型別的陣列時 int a[100]; char b[100]; string s[100]; 定義物件陣列也是一樣的 Student stud[5]; //定義stud陣列，有5個元素物件陣列的初始化 Student

快速排序演算法（QSort，快排）及C語言實現

上節介紹瞭如何使用起泡排序的思想對無序表中的記錄按照一定的規則進行排序，本節再介紹一種排序演算法——快速排序演算法（Quick Sort）。 C語言中自帶函式庫中就有快速排序——qsort函式，包含在 <stdlib.h> 標頭檔案中。快速排序演算法是在起泡排序的基礎上進行改進的一種演算

c語言五大記憶體分割槽-（堆，棧，全域性/靜態儲存區，自由儲存區，程式碼區）與可執行程式的三段-（Text段，Date段，Bss段）

一、c語言五大記憶體分割槽棧區（stack）:存放函式形參和區域性變數（auto型別），由編譯器自動分配和釋放堆區（heap）:該區由程式設計師申請後使用，需要手動釋放否則會造成記憶體洩漏。如果程式設計師沒有手動釋放，那麼程式結束時可能由OS回收。

java 檔案轉碼（gb2315,gbk,utf-8）csv，excel

最近做資料處理，需要將爬取的資料入庫，但是演算法提供的資料編碼格式和資料庫總是有出入，導致匯入的資料亂碼，所以寫一個轉碼程式，將檔案編碼轉為和資料庫一致。 package com.bjk.transcode; import java.io.FileInputStream; import j

C++及Windows異常處理（try，catch; try,finally; try, except）——一道筆試題引起的探究

轉載自 http://www.blogbus.com/shijuanfeng-logs/178616871.html 題目： int* p = 0x00000000; // pointer to NULL put

C++ 過濾出字串的中文（GBK，UTF-8）

這個函式的原理是ord($str)&0x80來判斷漢字

UTF-8編碼規則：如果只有一個位元組則其最高二進位制位為0；如果是多位元組，其第一個位元組從最高位開始，連續的二進位制位值為1的個數決定了其編碼的位元組數，其餘各位元組均以10開頭。UTF-8轉換表表示如下：

相關推薦