C++ 實現unicode到utf-8的轉碼

阿新 • • 發佈：2019-01-02

思路：

獲取字串裡面中的Unicode部分，然後將該部分轉換位utf-8格式的字元，最後將字串裡面的所有Unicode替換為utf-8即可。

廢話不多少，直接上程式碼：

標頭檔案：

/*
 * charsetEncode.h
 *
 *  Created on: Jul 25, 2016
 *      Author: root
 */


#ifndef COMMONSERVER_INCLUDE_CHARSETENCODE_H_
#define COMMONSERVER_INCLUDE_CHARSETENCODE_H_


#include <iostream>
#include <algorithm>
#include <string>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <unistd.h>
#include <errno.h>
#include <assert.h>


using namespace std;


class CcharsetEncode
{
public:
   int unicode_to_utf8(string &source);//unicode to utf-8


   //字串忽略大小寫字串替換
   void ReplaceStr(string &strContent, const char *strSrc, const char *strDest);


private:
    int enc_unicode_to_utf8_one(unsigned long unic, unsigned char *pOutput, int outSize);
    int isUnicode(const string &src); //the src is unicode or not, total 6 char(0x5e3f).1,yes;2,no
    unsigned int xstrtoshortint(const char *str); //"0x1a3f"->1a3f


};

#endif /* COMMONSERVER_INCLUDE_CHARSETENCODE_H_ */

原始檔：

/*
 * charsetEncode.cpp
 *
 *  Created on: Jul 25, 2016
 *      Author: root
 */


#include "charsetEncode.h"


int CcharsetEncode::unicode_to_utf8(string &source)
{
int sourcesize = source.size();
string src;
unsigned char pout[8];
for(int index = 0; index < sourcesize - 6;)
{
memset(pout, 0, 8);
src = source.substr(index, 6);
if(isUnicode(src) == 1)
{
string hexsrc = source.substr(index + 2, 4);
int num = enc_unicode_to_utf8_one(xstrtoshortint(hexsrc.c_str()), pout, 8);
ReplaceStr(source, src.c_str(), (char *)pout);
index += 3;
sourcesize = source.size();
}
else
{
index++;
}
}
return 0;
}


int CcharsetEncode::enc_unicode_to_utf8_one(unsigned long unic, unsigned char *pOutput, int outSize)
{
    assert(pOutput != NULL);
    assert(outSize >= 6);


    if ( unic <= 0x0000007F )
    {
        // * U-00000000 - U-0000007F:  0xxxxxxx
        *pOutput     = (unic & 0x7F);
        return 1;
    }
    else if ( unic >= 0x00000080 && unic <= 0x000007FF )
    {
        // * U-00000080 - U-000007FF:  110xxxxx 10xxxxxx
        *(pOutput+1) = (unic & 0x3F) | 0x80;
        *pOutput     = ((unic >> 6) & 0x1F) | 0xC0;
        return 2;
    }
    else if ( unic >= 0x00000800 && unic <= 0x0000FFFF )
    {
        // * U-00000800 - U-0000FFFF:  1110xxxx 10xxxxxx 10xxxxxx
        *(pOutput+2) = (unic & 0x3F) | 0x80;
        *(pOutput+1) = ((unic >>  6) & 0x3F) | 0x80;
        *pOutput     = ((unic >> 12) & 0x0F) | 0xE0;
        return 3;
    }
    else if ( unic >= 0x00010000 && unic <= 0x001FFFFF )
    {
        // * U-00010000 - U-001FFFFF:  11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
        *(pOutput+3) = (unic & 0x3F) | 0x80;
        *(pOutput+2) = ((unic >>  6) & 0x3F) | 0x80;
        *(pOutput+1) = ((unic >> 12) & 0x3F) | 0x80;
        *pOutput     = ((unic >> 18) & 0x07) | 0xF0;
        return 4;
    }
    else if ( unic >= 0x00200000 && unic <= 0x03FFFFFF )
    {
        // * U-00200000 - U-03FFFFFF:  111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
        *(pOutput+4) = (unic & 0x3F) | 0x80;
        *(pOutput+3) = ((unic >>  6) & 0x3F) | 0x80;
        *(pOutput+2) = ((unic >> 12) & 0x3F) | 0x80;
        *(pOutput+1) = ((unic >> 18) & 0x3F) | 0x80;
        *pOutput     = ((unic >> 24) & 0x03) | 0xF8;
        return 5;
    }
    else if ( unic >= 0x04000000 && unic <= 0x7FFFFFFF )
    {
        // * U-04000000 - U-7FFFFFFF:  1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
        *(pOutput+5) = (unic & 0x3F) | 0x80;
        *(pOutput+4) = ((unic >>  6) & 0x3F) | 0x80;
        *(pOutput+3) = ((unic >> 12) & 0x3F) | 0x80;
        *(pOutput+2) = ((unic >> 18) & 0x3F) | 0x80;
        *(pOutput+1) = ((unic >> 24) & 0x3F) | 0x80;
        *pOutput     = ((unic >> 30) & 0x01) | 0xFC;
        return 6;
    }
    return 0;
}


int CcharsetEncode::isUnicode(const string &src)
{
if(src.size() != 6)
return 0;
if(src.find("\\u", 0) == 0)
{
for(int i = 2; i <= 5; i++)
{
if(!((src[i] >= 'a' && src[i] <= 'f')
|| (src[i] >= 'A' && src[i] <= 'F')
|| (src[i] >= '0' && src[i] <= '9')))
{
return 0;
}
}
return 1;
}
else
{
return 0;
}
}


unsigned int CcharsetEncode::xstrtoshortint(const char *str)
{
    int len = strlen(str);
    unsigned int ivalue = 0;
    for (int i = 0; i < len; i++)
    {
        if ((str[i] <= '9' && str[i] >= '0'))
        {
            ivalue = ivalue * 16 + (str[i] - '0'); //16進位制 可換其它進位制
        }
        else if ((str[i] >= 'a' && str[i] <= 'f'))
        {
            ivalue = ivalue * 16 + (str[i] - 'a') + 10;
        }
        else if ((str[i] >= 'A' && str[i] <= 'F'))
        {
            ivalue = ivalue * 16 + (str[i] - 'A') + 10;
        }
    }
    return ivalue;
}


void CcharsetEncode::ReplaceStr(string &strContent, const char *strSrc, const char *strDest)
{
    string strCopy(strContent);
    string strSrcCopy(strSrc);


    string::size_type pos = 0;
    string::size_type srclen = strlen(strSrc);
    if( (pos=strCopy.find(strSrcCopy, pos)) != string::npos)
    {
        strContent.replace(pos, srclen, strDest);
    }
}

主函式測試：

int main()
{
CcharsetEncode encode;
string src = "\u300a\u58eb\u5175\u7a81\u51fb\u300b";
encode.unicode_to_utf8(src);
cout<<" unicode: "<<src<<endl;
return 0;
}

c++ 實現url的轉碼與解碼 urlencode urldecode

在網上找的程式碼各種問題，最終根據網上的版本修改實現了自己的一個版本，其中= 不做處理，- _都進行了轉碼 [cpp] view plain copy print? #include<iostream>#include<stdio.h&

c++ 實現url的轉碼與解碼 urlencode urldecode

在網上找的程式碼各種問題，最終根據網上的版本修改實現了自己的一個版本，其中= 不做處理，- _都進行了轉碼 #include<iostream> #include<stdio.h> using namespace std; static unsi

linux下c語言利用iconv函式實現utf-8轉unicode

由於專案中需要轉換原生unicode到ascii的功能，本來想的用的是linux或者windows自帶的寬位元組轉成窄位元組的函式，但由於本身使用了apr_iconv庫，所以直接使用庫函式來解決。期間碰到了庫函式使用一直出錯的問題，一

stm32f103zet6實現HTTP協議請求，UTF-8轉碼JSON打包上傳

概述：　　最近在做一個專案，需要用stm32f103zet6開發板走HTTP協議，向疲勞駕駛檢測裝置傳送請求訊息，使其下發人臉識別的圖片或引數資訊，開發板進行接收，要求如下：　　1. 開發板作為客戶端、疲勞駕駛檢測是被作為伺服器端　　2. 標準HTTP協議　　3. 請求方法使用PO

簡單測試--C#實現中文漢字轉拼音首字母

esp chart htm foreach ext ads linq 類庫 play 第一種：這個是自己寫的比較簡單的實現方法，要做漢字轉拼音首字母，首先應該有一個存儲首字母的數組，然後將要轉拼音碼的漢字與每個首字母開頭的第一個漢字即“最小”的漢字作比較，這裏的最小指的是

視頻轉碼：linux下ffmpeg 實現視頻轉碼

視頻轉碼使用shell快速安裝視頻轉碼器 #!/bin/bash #1、保證系統可以連到外網，需要下載安裝包和依賴包 #2、依賴gcc編譯器 #3、測試命令：ffmpeg -i test.avi out.mp4 set -e ffmDir="/usr/myapp" ffmVer="ffmpeg-3.4.1

c#實現傳送手機驗證碼

【.aspx.cs】 string shouji = ""; string templateid = "181ed0353b8341808620a1ed871793b5"; shouji = gelian.Value.Trim(); string yzm = IdentifyingCode.GenCod

linux+java+ffmpeg 實現音視訊轉碼技術

linux+java+ffmpeg 實現音視訊轉碼技術執行命令 1.安裝lame-3.1.0 tar -zvxf lame-3.1.0.tar.gz //解壓 cd lame-3.1

c實現 ip、掩碼計算網段

#define BYTE_LEN 8 #define BYTE_NUM 4 #define NET_SEGMENT_SIZE 64 int strtok_str(uint8_t * p[], int max_p_num, uint8_t * str, const uint8_t * spl) {

java-FFmpeg（一）實現視訊的轉碼和截圖功能

FFmpeg是一個開源免費跨平臺的視訊和音訊流方案，屬於自由軟體，採用LGPL或GPL許可證（依據你選擇的元件）。它提供了錄製、轉換以及流化音視訊的完整解決方案。它包含了非常先進的音訊/視訊編解碼庫libavcodec，為了保證高可移植性和編解碼質量，libavcodec裡很多codec都是從頭開發

C語言的url轉碼，提交內容到網站

2011-09-07 url提交資訊為何要轉碼呢？因為url本身會有很多特殊字元。而提交的引數中如果再有特殊字元的話，url就不能區分哪些是引數內容，哪些是分隔符。尤其是unicode，gb18030，big5等多位元組的編碼，

C#實現的word轉html命令列工具

需求有個CMS系統的詳細資訊的來源是人手工編寫的word文件，需求如下：文件是手工編輯而成的word文件(.docx) 文件具備一定的基本格式，其中包括標題、圖片、流程圖、簡介、按序號排布的詳細說明初步只需要將這些文件可以以html頁面的形

mac下通過vlc實現rtsp伺服器轉碼

想在自己的mac上搭建一個RTSP流媒體伺服器，找來找去，還是覺得VLC最簡單實用。官網下載安裝vlc，安裝後路徑為：/Applications/VLC.app實用命令啟動伺服器，命令如下 /Applications/VLC.app/Contents/MacOS/VLC --ttl 12 -vvv --

ID3決策樹演算法原理及C++實現(其中程式碼轉自別人的部落格)

分類是資料探勘中十分重要的組成部分. 分類作為一種無監督學習方式被廣泛的使用. 之前關於"資料探勘中十大經典演算法"中,基於ID3核心思想的分類演算法 C4.5榜上有名.所以不難看出ID3在資料分類中是多麼的重要了. ID3又稱為決策樹演算法,雖然現在廣義的決策樹演

解決gb2312與utf-8轉碼問題

{ iconv_t cd; char **pin = &inbuf; char **pout = &outbuf; cd = iconv_open(to_charset, from_charset); if (cd == -1) {

C++實現ASCII值轉十進位制的子函式

//將ASCII值轉化為十進位制數值 unsigned int result(unsigned int x) { unsigned int result=0; if(x>=65) { result = x-65+10; } else { result = x-48; }

使用FFmpeg命令實現音視訊轉碼的備忘錄

FFmpeg是比較經典，也是比較流行的多媒體工具庫(demux，mux， decode，encode等等)，支援格式也比較豐富，也比較實用。做多媒體開發的經常都需要使用到各種格式的音視訊對自己的開發成果進行測試。要收集齊這些音視訊測試檔案可不容易，尤其是要精確到profil

C#實現微信掃碼登入網站

網站、APP通過微信、微博、qq賬號來登入已經是很久以前的事了，現舉一個微信登入網站的例子：1、在open.weixin.qq.com註冊一個賬號，建立一個網站應用，開放介面每年要交300元認證費。2、在網站應用配置中設定授權回撥域為你自己的通過備案的域名。3、利用微信網站介

程式設計師過關斬將--自定義執行緒池來實現文件轉碼

背景我司在很久之前，一位很久之前的同事寫過一個文件轉圖片的服務，具體業務如下：使用者在客戶端上傳文件，可以是ppt，word，pdf 等格式，使用者上傳完成可以在客戶端預覽上傳的文件，預覽的時候採用的是圖片形式（不要和我說用別的方式預覽，現在已經來不及了）當用戶把文件上傳到雲端之後（阿里雲），把文件相

c#實現ofd檔案轉圖片功能（附執行程式）

前言 ofd檔案的作用就是保證資訊能如實的儲存、傳遞、顯示。保證ofd檔案的真實性靠的是簽名；ofd 的顯示需要專用軟體。ofd標準是新的國家標準，應用範圍遠不如pdf；現有瀏覽器不能解析ofd、支援ofd顯示的軟體也寥寥無幾。ofd轉圖片程式下載。專用軟體讀取ofd過程包括對o

C++ 實現unicode到utf-8的轉碼

相關推薦