utf-8字串中字元佔用位元組數

阿新 • • 發佈：2021-10-26

為了保護使用者隱私，對一部分使用者進行暱稱首個字元替換為"*" ；
問題：首個字元不確定是中文還是英文，英文可能佔用一個位元組，中文可能佔用2-4位元組，所以替換前需確定首個字元佔用多少個位元組
預設按照utf8格式處理

點選檢視程式碼

#include <iostream>

using namespace std;
//方法1 
void Utf8SubStr(string &name, string convert) {
    size_t i=0;
    size_t j=0;
    while (i<1 && j<name.length()) {
        unsigned char c = (unsigned char)name[j++];
        i += ((c & 0xc0) != 0x80);
    }

    while (j<name.length()) {
        unsigned char c = (unsigned char)name[j];
        if ((c & 0xc0) == 0x80) {
            j++;
        } else {
            break;
        }
    }
    name.replace(0, j, convert);
}
//方法2 自己根據utf8格式寫的
// UTF-8是這麼規定的：(x代表0或者1)
//
//只佔一個位元組的字元，8位位元組第一位就是0
//0 X X X X X X X
//
//佔用2個位元組的字元，第一個位元組的是以110開頭，第二個位元組以10開頭
//1 1 0 X X X X X 1 0 X X X X X X
//
//佔用3個位元組的字元，第一個位元組的是以1110開頭，剩餘位元組都以10開頭
//1 1 1 0 X X X X 1 0 X X X X X X 1 0 X X X X X X
//
//佔用4個位元組的字元，第一個位元組的是以11110開頭，剩餘位元組都以10開頭
//1 1 1 1 0 X X X 1 0 X X X X X X 1 0 X X X X X X 1 0 X X X X X X
//https://zhuanlan.zhihu.com/p/363036851
int32_t FirstWordReplace(std::string & src,std::string replace = "*"){
    // 1. is chinese ?
    char *c = (char *)src.c_str();
    int first_word_len = 1;
    if ((*c & 0x80)==0x80){
        first_word_len = 1;
        if ((*c & 0xc0)==0xc0){
            first_word_len = 2;
            if ((*c & 0xe0) ==0xe0){
                first_word_len = 3;
                if ((*c & 0xf0) == 0xf0){
                    first_word_len = 4;
                    if ((*c & 0xf8)==0xf8){
                        first_word_len = 5;
                        if ((*c & 0xfc)==0xfc){
                            first_word_len = 6;
                        }
                    }
                }
            }
        }
    }
    // 2. replace
    cout<<first_word_len<<endl;
    src.replace(0, first_word_len, replace);
}
int main() {

    std::string test("龠編碼aa");
    char * ptr =  (char *)test.c_str();
    printf("%x,%x,%x,%x,%x,%x,%x,%x\n",ptr[0],ptr[1],ptr[2],ptr[3],ptr[4],ptr[5],ptr[6],ptr[7]);
    cout<<test.c_str()<<endl;

    FirstWordReplace(test,"*");
    cout<<test.c_str()<<endl;
    printf("%x,%x,%x,%x,%x,%x,%x,%x\n",ptr[0],ptr[1],ptr[2],ptr[3],ptr[4],ptr[5],ptr[6],ptr[7]);

    return 0;
}

utf-8字串中字元佔用位元組數

為了保護使用者隱私，對一部分使用者進行暱稱首個字元替換為\"*\" ；問題：首個字元不確定是中文還是英文，英文可能佔用一個位元組，中文可能佔用2-4位元組，所以替換前需確定首個字元佔用多少個位元組

【轉】c#判斷字串是否存在字母及字串中字元的替換例項

首先要新增對名稱空間“using System.Text.RegularExpressions;”的引用下面以一個字串為例：

JavaSe 統計字串中字元出現的次數

public static void main(String[] args) { // 1、字串 String str = \"*Constructs a new <tt>HashMap</tt> with the same mappings as the *specified <tt>Map</tt>. The<tt>HashM

輸入一個字串,按字典序打印出該字串中字元的所有排列（劍指offer）

輸入一個字串,按字典序打印出該字串中字元的所有排列（劍指offer）參考連結：https://blog.csdn.net/Felix_ar/article/details/84038226

輸入一個字串,按字典序打印出該字串中字元的所有排列

題目：題目描述輸入一個字串,按字典序打印出該字串中字元的所有排列。例如輸入字串abc,則按字典序打印出由字元a,b,c所能排列出來的所有字串abc,acb,bac,bca,cab和cba。

Python | 查詢給定字串中字元的位置

給定一個字串和一個字元，您的任務是找到字元在字串中的第一個位置。這些型別的問題是非常有競爭力的程式設計，您需要在其中定位字元在字串中的位置。

基於java查詢並列印輸出字串中字元出現次數

今天在面試時遇到一道演算法的題：給定一個字串，輸出每次字元出現的次數；要求按照順序輸出；

統計英文字串中字元出現的次數(更新中)

package 小工具; import java.util.Arrays; import java.util.HashMap; import java.util.Map; import java.util.Set;

2020-3：字串操作--統計一個字串中字元出現的次數，並找出最大值--字典（JavaScript）

技術標籤：JavaScript前端javascript前端 // 字典方法統計一個字串中字元出現的次數

計算字串中字元出現的次數，並按照字母順序表排序輸出如：ddkafadf a2d3f2k1

技術標籤：演算法資料結構c語言核心思想：（類似於厄拉多塞篩選）建立一個長度128的陣列用來計數；（陣列下標恰好包含了ascll碼錶的所有值）此時

計算字串中字元出現的次數

技術標籤：C/C++語言基礎字串演算法 Description 輸出字元出現的次數，並按照字母順序表排序輸出

寫一個程式，讀入一個行字串（可能包含空格），輸出這個字串中字元的數量

技術標籤：C語言練習題目寫一個程式，讀入一個行字串（可能包含空格），輸出這個字串中字元的數量

c# 基元資料型別佔用位元組數

void Main() { System.BitConverter.GetBytes(true).Count().Dump(\"bool型別佔用位元組數:\"); System.BitConverter.GetBytes(short.MaxValue).Count().Dump(\"short型別佔用位元組數:\");