utf-8 字串轉 unicode 字串

阿新 • • 發佈：2019-01-24

utf-8編碼簡介

utf-8編碼是一種變長編碼, 中文字元用三個byte來儲存，而編碼範圍在 0 到 0x7f 則使用1個位元組儲存

Number of bytes	Bits for code point	First code point	Last code point	Byte1	Byte2	Byte3	Byte4
1	7	U+0000	U+007F	0xxxxxxx
2	11	U+0080	U+07FF	110xxxxx	10xxxxxx
3	16	U+0800	U+FFFF	1110xxxx	10xxxxxx	10xxxxxx
4	21	U+10000	U+10FFFF	11110xxx	10xxxxxx	10xxxxxx	10xxxxxx

以下是編碼例子，這些都是來自於維基百科

以下程式碼能把 utf-8 多位元組字串，轉換成為unicode 字串，如轉載請註明出處

static int z_pos(uint8_t x)
{
    for (int i = 0; i < 5; i++, x <<= 1) {
        if ( (x & 0x80) == 0 )
            return i;
    }

    return 
 4;
}

// convert UTF-8 string to wstring
std::wstring utf8_to_wstring(const std::string& str)
{
    std::wstring loc;
    uint8_t mask[5] = { 0x7f, 0x3f, 0x1f, 0x0f, 0x7};

    for (size_t i = 0; i < str.length();) {
        int byte_cnt = z_pos(str[i]);
        uint16_t sum = str[i] & mask[byte_cnt];

        for 
 (size_t j = 1; j < byte_cnt; j++) {
            sum <<= 6;
            sum |= str[i+j] & mask[1];
        }

        i += byte_cnt ? byte_cnt : 1;
        loc.push_back(sum);
    }

    return loc;
}

utf-8 字串轉 unicode 字串

utf-8編碼簡介 utf-8編碼是一種變長編碼, 中文字元用三個byte來儲存，而編碼範圍在 0 到 0x7f 則使用1個位元組儲存 Number of bytes Bits for code point First code point

將assic編碼的json字串轉化為utf-8編碼的json字串

一、匯入模組 import urllib.request import urllib.parse import json 二、指定url,構造headers，構造請求引數 1.指定url url = 'http://fanyi.baidu.c

C#字串轉UNICODE

public static string StringToUnicode(string s)//字串轉UNICODE程式碼 { char[] charbuffers = s.ToCharArray(); byte[] buffer;

[Java]字串轉Unicode編碼額外2個位元組的來源

轉載： https://blog.csdn.net/iteye_3946/article/details/81640056 https://www.zhihu.com/question/23374078/answer/69732605 為了在讀取位元組時能知道所採用的位

研究字串轉Unicode額外2個位元組的來源

論壇的討論地址如下：http://topic.csdn.net/u/20081009/09/e899898c-591f-4985-ae88-5972475708fb.html測試程式碼如下： String s = "1";byte[] arr = s.getBytes("

C++ 實現unicode到utf-8的轉碼

思路：獲取字串裡面中的Unicode部分，然後將該部分轉換位utf-8格式的字元，最後將字串裡面的所有Unicode替換為utf-8即可。廢話不多少，直接上程式碼：標頭檔案： /* * charsetEncode.h * * Created on: Jul

字串轉Unicode額外2個位元組的來源

論壇的討論地址如下：http://topic.csdn.net/u/20081009/09/e899898c-591f-4985-ae88-5972475708fb.html 測試程式碼如下： String s = "1"; byte[] arr = s.getByt

VC下unicode與utf-8互轉

使用場合： VC下使用unicode編碼，如果需要使用utf-8，這時就需要轉換（支援中文） //引數：utf8 要轉換的utf8 指標 unicode接收轉換後的buff nBuffSize buff的大小返回值：轉換後的unicode大小 int Utf82U

Unicode與UTF-8互轉(C語言實現)

1.1 ASCII碼我們知道, 在計算機內部, 所有的資訊最終都表示為一個二進位制的字串. 每一個二進位制位(bit)有0和1兩種狀態, 因此八個二進位制位就可以組合出 256種狀態, 這被稱為一個字節(byte). 也就是說, 一個位元組一共可以用來表示256種不

cocos2d-x類型轉換(CCstring int string char UTF-8互轉)

htm for ons cocos2d oat form int str intvalue http://www.cnblogs.com/leehongee/p/3642308.html //int 轉 CCstring int num＝5; CCString* n

IOS編碼GB2312與UTF-8互轉

GB2312轉換為UTF-8的方法 + (NSData *)UTF8WithGB2312Data:(NSData *)gb2312Data { NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding

c++中gbk和utf-8互轉

gbk轉utf-8 char* G2U(const char* gb2312) { ASSERT(gb2312!=NULL); int len = MultiByteToWideChar(CP_ACP, 0, gb2312, -1, NULL, 0);

Python——str字串和unicode字串

對於處理過中文的Python程式設計師來說，想必對UnicodeEncodeError和UnicodeDecodeError並不陌生。為了更好的理解Python中的編碼問題，我們首先介紹一下字元編碼以及Python的兩種字串型別：str和unicode之間的區別

Python2.7 中文字元編碼 & Pycharm utf-8設定、Unicode與utf-8的區別

Python2.7 中文字元編碼 & Pycharm utf-8設定、Unicode與utf-8的區別 [email protected] 作者：Zhouwan 2017-6-6 一、關於編碼和亂碼，有以下幾個重要的概念需要搞清楚：　　二、Pycharm 設定編碼, 可以

cocos2d-x型別轉換(CCstring int string char UTF-8互轉)

====================================== string 轉 CCStringstd::string str = "123"; CCString* ns=CCString::createWithFormat("%s",str.c_str()); CCString 轉

【走過的彎路】UTF-8編碼轉GB2312

1.說明：UTF-8和GB2312沒有直接的轉換關係，需要通過查表的方式來裝換，表碼如下連結： http://wenku.baidu.com/link?url=U99KgZDiS3k33Pl7f9UFQo5puGScd462DzzpCOTgl-Hu1I9liubC7gUoo

前端Ａjax實現預覽TXT文件（相容UTF-8，ANCII,Unicode）

最近在做文件的預覽問題，在做txt的時候,原本是用HTML <object> 標籤,但是讀取的時候亂碼，經查詢資料，知道了原來txt文件預設的是ANCII編碼，解決辦法如下; 一、將ANCII轉Unicode，但是沒有成功， //ASCII 轉換 Unicod

golang 八進位制 utf-8 編碼轉中文

當除錯程式，打印出變數的值時，有可能輸出的是八進位制 utf-8 編碼（尤其是 protobuf 變數）例如：\346\200\241\346\200\241\346\200 這樣的字串如果作為字面量，go可以自動轉化，但如果是從檔案或string中讀

在GBK與UTF-8互轉時遇到問題，及解決方案

當文字長度為奇數時轉為GBK再轉回UTF-8時會出現末尾字元亂碼的情況，在此特地記錄一下解決方案最近在寫一個根據模板標籤生成word的專案，在本地測試無問題但是放到伺服器上會出現生成字元亂碼的情況，考慮到GBK轉UTF-8使用getBytes只有在長度為

GBK(GB2312)與UTF-8檔案轉碼

最近使用的Intelij IDEA開發工具，轉碼有點小問題。百度了一下，Eclipse可以自動轉碼，而IDEA卻不可以。總是需要手動去轉若要把原始檔由GBK轉成UTF-8的，得靠其他方式了。網上搜羅了一下方法，然後自己整理了一下。現把程式碼貼出來，測試OK、可以直接使用！

utf-8 字串轉 unicode 字串

utf-8編碼簡介

相關推薦