js 傳遞漢字亂碼_JavaScript 字串反轉亂碼問題解決

阿新 • • 發佈：2021-02-17

JavaScript 字串反轉亂碼

前一段寫了篇文章：JavaScript 8種字串反轉的方法 – 碼中人，介紹了js中反轉字串的幾個方法。

但有些字串或有些方法無法達到預期結果，如：

emoji字元

"Trump ".split("").reverse().join("");// "�� pmurT"

生僻漢字

"野家".split("").reverse().join("");// "家野��"

複合字符

"noël".split("").reverse().join("");//"l̈eon"

字元逆轉雖然沒有出現亂碼，但原本字母”e”上面修飾符，變成了”l”的修飾符。

產生亂碼的原因

以上三例子的錯誤是在哪個步驟產生的？先來看string.split()之後：

顯然在split()方法就已經出錯了，並且長度為n的字串，轉化成了n+1長度的陣列。

本質原因要回溯到javascript字元編碼的方式。

Unicode與JavaScript詳解 – 阮一峰的網路日誌

JavaScript語言採用Unicode字符集，最初使用的字元編碼是UCS-2！

但UCS-2 編碼方式只覆蓋基本多語言平面(BMP)的碼點，因為 16 位二進位制表示的最大值為 0xFFFF，而對於增補平面中的碼點(範圍為 0x10000~0x10FFFF，十進位制為 65536~1114111)，兩位元組的 16 位二進位制是無法表示的。為了解決這個問題，The Unicode Consortium 提出了通過代理對(surrogate pair)機制來擴充套件原來的 UCS-2 編碼方式，也就是 UTF-16。

可以這麼理解，JavaScript字元編碼是 UCS-2 + 代理對(surrogate pair)。

代理對規定用兩個16位編碼單元來表示一個碼位(超出BMP的碼位)，該實現方式相對有些複雜，本文不贅述。

因為代理對，JavaScript字串裡的字元有兩種：

由一個碼元(16位)表示的BMP字元
由兩個碼元(16*2位)表示的輔助平面字元

這就給 JS 中的 Unicode 處理帶來了很多問題，基本上所有的字串操作函式在處理非 BMP 字元時都是錯誤的。

“”與“”這兩個字元都是通過代理對錶示的，有2個碼元長度，所以js把它們當成2個字元，長度變成n+1。同時這兩個單獨的碼元所指向的碼點上沒有相應字元，變成了亂碼。

解決方法

1 ES6 自動識別

ES6 中的for of 、array.from(str)、… 都可以自動識別兩個碼元字元，把它當成一個字元。

[... "Trump "].reverse().join("");" pmurT"

Array.from("野家").reverse().join("");"家野"

2 引入ssrever 類庫

mathiasbynens/esrever: A Unicode-aware string reverser written in JavaScript.

var input = 'Lorem ipsum  dolor sit ameͨ͆t.';var reversed = esrever.reverse(input);console.log(reversed);// → '.teͨ͆ma tis rolod  muspi meroL'esrever.reverse(reversed) == input;// → true

複合字符

但是”noël”的逆轉還是不成功。

Array.from("noël").reverse().join("");"l̈eon"

這個問題和 JS 沒關係，是 Unicode 字符集本身的問題。

根據 Unicode 定義，有些字元屬於修飾字符，也就是和別的字元一起出現的時候會修飾別的字元，兩個合在一起構成一個我們人眼中的字元。

比如，ë 這個字元，由兩個 Unicode 碼點構成，分別是 U+0065 和 U+0308。這兩個都是 Unicode 中的合法字元，擁有自己的碼點，但他們合在一起的時候，構成一個我們人類眼中的字元。

同時，在 Unicode 中，還有一個單獨的字元 ë，碼點為 U+00EB。

ë 和 ë 在我們眼中是一樣的字元，但在 Unicode 中卻是不同的表現，一個是由兩個字元拼接而成，另一個是獨立的字元，因此，如果直接比較的話，肯定是不相等的。

"ë" === "ë" // false

這時候就需要引入規整化，將字元轉變為某種特定的形式。Unicode 中定義了四種形式，常用的兩種是：

NFD: Normalization Form Canonical Decomposition，將所有的單個的複合字符轉換為多個字元拼接而成的形式
NFC: Normalization Form Canonical Composition，將所有的拼接而成的符合字元轉換為單個字元的形式

因此，在比較 Unicode 字串之前，我們需要對兩邊的字串規整化到相同的形式，這樣結果才是準確的。ES6 中引入的 String.prototype.normalize 方法可以用於字串的規整化。

"ë".normalize("NFC") === "ë".normalize("NFC") // true

所以，正確反轉“noël”需要先將其規整化。

Array.from("noël".normalize()).reverse().join("");"lëon"

參考資料

Unicode與JavaScript詳解 – 阮一峰的網路日誌
ES6走走看看—字元到底發生了什麼變化 – 掘金
Unicode 及編碼方式概述 – IBM Developer

js 傳遞漢字亂碼_JavaScript 字串反轉亂碼問題解決

技術標籤：js 傳遞漢字亂碼 JavaScript 字串反轉亂碼前一段寫了篇文章：JavaScript 8種字串反轉的方法 – 碼中人，介紹了js中反轉字串的幾個方法。

Java列印字串出現亂碼問題

問題描述我在idea執行我以前寫的程式碼時發現在utf-8編碼下執行打印出了亂碼，如圖：

JS演算法教程之字串去重與字串反轉

一、字串去重說起字串去重，第一時間就會想起陣列去重，所以我們可以把字串轉換為陣列，然後對陣列去重，去重完畢後在拼接成字串，下面就簡單羅列兩種字串去重的方法，接下來我們看程式碼。

前端JS演算法之字串去重和字串反轉

技術標籤：JS字串去重字串反轉前端演算法jsJavaScript 一、字串去重說起字串去重，第一時間就會想起陣列去重，所以我們可以把字串轉換為陣列，然後對陣列去重，去重完畢後在拼接成字串，下面就簡單羅列兩種字串

一次Post請求@RequestBody接收字串中文亂碼問題

技術標籤：開發中踩的坑javaspringspring boot亂碼如圖所示，在一次開發中接收Json字串使用@RequestBody接收，傳入的中文出現了亂碼問題

解決java socket在傳輸漢字時出現截斷導致亂碼的問題

解決java socket在傳輸漢字時出現截斷導致亂碼的問題當使用socket進行TCP資料傳輸時，傳輸的字串會編碼成位元組陣列，當採用utf8編碼時，數字與字母長度為1個位元組,而漢字一般為3個位元組。這裡參考

js獲取url引數，以及中文亂碼問題

// 兩種獲取方法 function GetQueryString(parameter) { var reg = new RegExp(\"(^|&)\" + parameter + \"=([^&]*)(&|$)\");

JS實現特定字串反轉

Write a function that takes in a string of one or more words, and returns the same string, but with all five or more letter words reversed (Just like the name of this Kata). Strings passed in will c

python字串反轉的四種方法詳解

這篇文章主要介紹了python字串反轉的四種詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

C# 字串反轉

private void button1_Click(object sender,EventArgs e) { char[] p_chr = text_input.Text.ToCharArray(); Array.Reverse(p_chr,0,text_input.Text.Length);

SpringBoot配置Redis序列化規則，防止亂碼，0xf或亂碼

SpringBoot配置Redis序列化規則，防止亂碼 SpringBoot引入Redis很簡單，新增以下註解：

怎麼解決springmvc json中的亂碼問題（Json亂碼解決統一程式碼）

怎麼解決springmvc json中的亂碼問題（Json亂碼解決統一程式碼）解決方案： 1:我們可以@RequestMapping配置中新增(value = “請求體”,produces = “application/json;charset=utf-8”)

字串反轉

題目描述：給定一個字串，要求把字串前面的若干個字元移動到字串的尾部，如把字串“abcdef”前面的2個字元’a’和’b’移動到字串的尾部，使得原字串變成字串“cdefab”。

idea日誌亂碼和tomcat日誌亂碼問題的解決方法

1 idea啟動tomcat亂碼遇到的問題： idea整合SSM專案，tomcat啟動，啟動時檢視idea上的tomcat日誌，出現亂碼：

Java字串01-字串反轉輸出

字串反轉 package com.clover.demo; import java.util.Arrays; public class Test_StringReverse_0810 { public static void main(String[] args) {

JAVA字串反轉的三種方法

方法一：使用StringBuilder import java.util.Scanner; public class StrReversal { public static void main(String[] args) {

java實現字串反轉案例

本文例項為大家分享了java實現字串反轉的具體程式碼，供大家參考，具體內容如下

python和js分別在多行字串中插入一行字串

問題一個多行字串，"asfdb;\\nwesfpjoing;\\nwbfliqwbefpwqufn\\nasfdwe\\nsafewt\\nqwern\\nvar\\ntgwtg\\n\\nftwg\\n"

在js中將日期轉換為字串_如何在Word 2013中將文字轉換為表格並將錶轉換為文字...

在js中將日期轉換為字串 Have you entered some text in columns separated by tabs and you want to convert it to a table? Word provides a useful feature that allows you to quickly convert

SecureCRT連線Linux，終端顯示中文亂碼問題，全方面解決

SecureCRT連線Linux時經常會看到亂碼。發生亂碼的原因主要是有三個地方 1.Linux的etc的系統預設配置的編碼

js 傳遞漢字 亂碼_JavaScript 字串反轉亂碼問題解決

JavaScript 字串反轉亂碼

產生亂碼的原因

解決方法

複合字符

相關推薦

js 傳遞漢字亂碼_JavaScript 字串反轉亂碼問題解決