再見亂碼：5 分鐘讀懂 MySQL 字符集設定

阿新 • • 發佈：2022-05-02

作者：程式猿小卡_casper 原文：https://segmentfault.com/a/1190000012775484

一、內容概述

在MySQL的使用過程中，瞭解字符集、字元序的概念，以及不同設定對資料儲存、比較的影響非常重要。不少同學在日常工作中遇到的“亂碼”問題，很有可能就是因為對字符集與字元序的理解不到位、設定錯誤造成的。

本文由淺入深，分別介紹瞭如下內容：

字符集、字元序的基本概念及聯絡
MySQL支援的字符集、字元序設定級，各設定級別之間的聯絡
server、database、table、column級字符集、字元序的檢視及設定
應該何時設定字符集、字元序

二、字符集、字元序的概念與聯絡

在資料的儲存上，MySQL提供了不同的字符集支援。而在資料的對比操作上，則提供了不同的字元序支援。

MySQL提供了不同級別的設定，包括server級、database級、table級、column級，可以提供非常精準的設定。

什麼是字符集、字元序？簡單的來說：

字符集（character set）：定義了字元以及字元的編碼。
字元序（collation）：定義了字元的比較規則。

舉個例子：

有四個字元：A、B、a、b，這四個字元的編碼分別是A = 0, B = 1, a = 2, b = 3。這裡的字元 + 編碼就構成了字符集（character set）。

如果我們想比較兩個字元的大小呢？比如A、B，或者a、b，最直觀的比較方式是採用它們的編碼，比如因為0 < 1，所以 A < B。

另外，對於A、a，雖然它們編碼不同，但我們覺得大小寫字元應該是相等的，也就是說 A == a。

這上面定義了兩條比較規則，這些比較規則的集合就是collation。

同樣是大寫字元、小寫字元，則比較他們的編碼大小；
如果兩個字元為大小寫關係，則它們相等。

三、MySQL支援的字符集、字元序

MySQL支援多種字符集與字元序。

一個字符集對應至少一種字元序（一般是1對多）。
兩個不同的字符集不能有相同的字元序。
每個字符集都有預設的字元序。

上面說的比較抽象，我們看下後面幾個小節就知道怎麼回事了。

1、檢視支援的字符集

可以通過以下方式檢視MYSQL支援的字符集。

方式一：

mysql> SHOW CHARACTER SET;
+----------+-----------------------------+---------------------+--------+
| Charset  | Description                 | Default collation   | Maxlen |
+----------+-----------------------------+---------------------+--------+
| big5     | Big5 Traditional Chinese    | big5_chinese_ci     |      2 |
| dec8     | DEC West European           | dec8_swedish_ci     |      1 |
...省略

方式二：

mysql> use information_schema;
mysql> select * from CHARACTER_SETS;
+--------------------+----------------------+-----------------------------+--------+
| CHARACTER_SET_NAME | DEFAULT_COLLATE_NAME | DESCRIPTION                 | MAXLEN |
+--------------------+----------------------+-----------------------------+--------+
| big5               | big5_chinese_ci      | Big5 Traditional Chinese    |      2 |
| dec8               | dec8_swedish_ci      | DEC West European           |      1 |
...省略

當使用 SHOW CHARACTER SET檢視時，也可以加上 WHERE或 LIKE限定條件。

例子一：使用 WHERE限定條件。

mysql> SHOW CHARACTER SET WHERE Charset="utf8";
+---------+---------------+-------------------+--------+
| Charset | Description   | Default collation | Maxlen |
+---------+---------------+-------------------+--------+
| utf8    | UTF-8 Unicode | utf8_general_ci   |      3 |
+---------+---------------+-------------------+--------+
1 row in set (0.00 sec)

例子二：使用 LIKE限定條件。

mysql> SHOW CHARACTER SET LIKE "utf8%";
+---------+---------------+--------------------+--------+
| Charset | Description   | Default collation  | Maxlen |
+---------+---------------+--------------------+--------+
| utf8    | UTF-8 Unicode | utf8_general_ci    |      3 |
| utf8mb4 | UTF-8 Unicode | utf8mb4_general_ci |      4 |
+---------+---------------+--------------------+--------+
2 rows in set (0.00 sec)

2、檢視支援的字元序

類似的，可以通過如下方式檢視MYSQL支援的字元序。

方式一：通過 SHOW COLLATION進行檢視。

可以看到， utf8字符集有超過10種字元序。通過 Default的值是否為 Yes，判斷是否預設的字元序。

mysql> SHOW COLLATION WHERE Charset = 'utf8';
+--------------------------+---------+-----+---------+----------+---------+
| Collation                | Charset | Id  | Default | Compiled | Sortlen |
+--------------------------+---------+-----+---------+----------+---------+
| utf8_general_ci          | utf8    |  33 | Yes     | Yes      |       1 |
| utf8_bin                 | utf8    |  83 |         | Yes      |       1 |
...略

方式二：查詢 information_schema.COLLATIONS。

mysql> USE information_schema;
mysql> SELECT * FROM COLLATIONS WHERE CHARACTER_SET_NAME="utf8";
+--------------------------+--------------------+-----+------------+-------------+---------+
| COLLATION_NAME           | CHARACTER_SET_NAME | ID  | IS_DEFAULT | IS_COMPILED | SORTLEN |
+--------------------------+--------------------+-----+------------+-------------+---------+
| utf8_general_ci          | utf8               |  33 | Yes        | Yes         |       1 |
| utf8_bin                 | utf8               |  83 |            | Yes         |       1 |
| utf8_unicode_ci          | utf8               | 192 |            | Yes         |       8 |

3、字元序的命名規範

字元序的命名，以其對應的字符集作為字首，如下所示。比如字元序 utf8_general_ci，標明它是字符集 utf8的字元序。

更多規則可以參考官方文件。

MariaDB [information_schema]> SELECT CHARACTER_SET_NAME, COLLATION_NAME FROM COLLATIONS WHERE CHARACTER_SET_NAME="utf8" limit 2; 
+--------------------+-----------------+
| CHARACTER_SET_NAME | COLLATION_NAME  |
+--------------------+-----------------+
| utf8               | utf8_general_ci |
| utf8               | utf8_bin        |
+--------------------+-----------------+
2 rows in set (0.00 sec)

四、server的字符集、字元序

用途：當你建立資料庫，且沒有指定字符集、字元序時，server字符集、server字元序就會作為該資料庫的預設字符集、排序規則。

如何指定：MySQL服務啟動時，可通過命令列引數指定。也可以通過配置檔案的變數指定。

server預設字符集、字元序：在MySQL編譯的時候，通過編譯引數指定。

character_set_server、 collation_server分別對應server字符集、server字元序。

1、檢視server字符集、字元序

分別對應 character_set_server、 collation_server兩個系統變數。

mysql> SHOW VARIABLES LIKE "character_set_server";
mysql> SHOW VARIABLES LIKE "collation_server";

2、啟動服務時指定

可以在MySQL服務啟動時，指定server字符集、字元序。如不指定，預設的字元序分別為 latin1、 latin1_swedish_ci

mysqld --character-set-server=latin1 
       --collation-server=latin1_swedish_ci

單獨指定server字符集，此時，server字元序為 latin1的預設字元序 latin1_swedish_ci。

mysqld --character-set-server=latin1

3、配置檔案指定

除了在命令列引數裡指定，也可以在配置檔案裡指定，如下所示。

[client]
default-character-set=utf8

[mysql]
default-character-set=utf8

[mysqld]
collation-server = utf8_unicode_ci
init-connect='SET NAMES utf8'
character-set-server = utf8

4、執行時修改

例子：執行時修改（重啟後會失效，如果想要重啟後保持不變，需要寫進配置檔案裡）

mysql> SET character_set_server = utf8 ;

5、編譯時指定預設字符集、字元序

character_set_server、 collation_server的預設值，可以在MySQL編譯時，通過編譯選項指定：

cmake . -DDEFAULT_CHARSET=latin1 
           -DDEFAULT_COLLATION=latin1_german1_ci

五、database的字符集、字元序

用途：指定資料庫級別的字符集、字元序。同一個MySQL服務下的資料庫，可以分別指定不同的字符集/字元序。

1、設定資料的字符集/字元序

可以在建立、修改資料庫的時候，通過 CHARACTER SET、 COLLATE指定資料庫的字符集、排序規則。

建立資料庫：

CREATE DATABASE db_name
    [[DEFAULT] CHARACTER SET charset_name]
    [[DEFAULT] COLLATE collation_name]

修改資料庫：

ALTER DATABASE db_name
    [[DEFAULT] CHARACTER SET charset_name]
    [[DEFAULT] COLLATE collation_name]

例子：建立資料庫 test_schema，字符集設定為 utf8，此時預設的排序規則為 utf8_general_ci。

CREATE DATABASE `test_schema` DEFAULT CHARACTER SET utf8;

2、檢視資料庫的字符集/字元序

有3種方式可以檢視資料庫的字符集/字元序。

例子一：檢視 test_schema的字符集、排序規則。（需要切換預設資料庫）

mysql> use test_schema;
Database changed
mysql> SELECT @@character_set_database, @@collation_database;
+--------------------------+----------------------+
| @@character_set_database | @@collation_database |
+--------------------------+----------------------+
| utf8                     | utf8_general_ci      |
+--------------------------+----------------------+
1 row in set (0.00 sec)

例子二：也可以通過下面命令檢視 test_schema的字符集、資料庫（不需要切換預設資料庫）

mysql> SELECT SCHEMA_NAME, DEFAULT_CHARACTER_SET_NAME, DEFAULT_COLLATION_NAME  FROM information_schema.SCHEMATA WHERE schema_name="test_schema";
+-------------+----------------------------+------------------------+
| SCHEMA_NAME | DEFAULT_CHARACTER_SET_NAME | DEFAULT_COLLATION_NAME |
+-------------+----------------------------+------------------------+
| test_schema | utf8                       | utf8_general_ci        |
+-------------+----------------------------+------------------------+
1 row in set (0.00 sec)

例子三：也可以通過檢視建立資料庫的語句，來檢視字符集。

mysql> SHOW CREATE DATABASE test_schema;
+-------------+----------------------------------------------------------------------+
| Database    | Create Database                                                      |
+-------------+----------------------------------------------------------------------+
| test_schema | CREATE DATABASE `test_schema` /*!40100 DEFAULT CHARACTER SET utf8 */ |
+-------------+----------------------------------------------------------------------+
1 row in set (0.00 sec)

3、database字符集、字元序是怎麼確定的

建立資料庫時，指定了 CHARACTER SET或 COLLATE，則以對應的字符集、排序規則為準。
建立資料庫時，如果沒有指定字符集、排序規則，則以 character_set_server、 collation_server為準。

六、table的字符集、字元序

建立表、修改表的語法如下，可通過 CHARACTER SET、 COLLATE設定字符集、字元序。

CREATE TABLE tbl_name (column_list)
    [[DEFAULT] CHARACTER SET charset_name]
    [COLLATE collation_name]]

ALTER TABLE tbl_name
    [[DEFAULT] CHARACTER SET charset_name]
    [COLLATE collation_name]

1、建立table並指定字符集/字元序

例子如下，指定字符集為 utf8，字元序則採用預設的。

CREATE TABLE `test_schema`.`test_table` (
  `id` INT NOT NULL COMMENT '',
  PRIMARY KEY (`id`)  COMMENT '')
DEFAULT CHARACTER SET = utf8;

2、檢視table的字符集/字元序

同樣，有3種方式可以檢視table的字符集/字元序。

方式一：通過 SHOW TABLE STATUS檢視table狀態，注意 Collation為 utf8_general_ci，對應的字符集為 utf8。

MariaDB [blog]> SHOW TABLE STATUS FROM test_schema G;
*************************** 1. row ***************************
           Name: test_table
         Engine: InnoDB
        Version: 10
     Row_format: Compact
           Rows: 0
 Avg_row_length: 0
    Data_length: 16384
Max_data_length: 0
   Index_length: 0
      Data_free: 11534336
 Auto_increment: NULL
    Create_time: 2018-01-09 16:10:42
    Update_time: NULL
     Check_time: NULL
      Collation: utf8_general_ci
       Checksum: NULL
 Create_options: 
        Comment: 
1 row in set (0.00 sec)

方式二：檢視 information_schema.TABLES的資訊。

mysql> USE test_schema;
mysql> SELECT TABLE_COLLATION FROM information_schema.TABLES WHERE TABLE_SCHEMA = "test_schema" AND TABLE_NAME = "test_table";
+-----------------+
| TABLE_COLLATION |
+-----------------+
| utf8_general_ci |
+-----------------+

方式三：通過 SHOW CREATE TABLE確認。

mysql> SHOW CREATE TABLE test_table;
+------------+----------------------------------------------------------------------------------------------------------------+
| Table      | Create Table                                                                                                   |
+------------+----------------------------------------------------------------------------------------------------------------+
| test_table | CREATE TABLE `test_table` (
  `id` int(11) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 |
+------------+----------------------------------------------------------------------------------------------------------------+
1 row in set (0.00 sec)

3、table字符集、字元序如何確定

假設 CHARACTER SET、 COLLATE的值分別是 charset_name、 collation_name。如果建立table時：

明確了 charset_name、 collation_name，則採用 charset_name、 collation_name。
只明確了 charset_name，但 collation_name未明確，則字符集採用 charset_name，字元序採用 charset_name對應的預設字元序。
只明確了 collation_name，但 charset_name未明確，則字元序採用 collation_name，字符集採用 collation_name關聯的字符集。
charset_name、 collation_name均未明確，則採用資料庫的字符集、字元序設定。

七、column的字符集、排序

型別為CHAR、VARCHAR、TEXT的列，可以指定字符集/字元序，語法如下：

col_name {CHAR | VARCHAR | TEXT} (col_length)
    [CHARACTER SET charset_name]
    [COLLATE collation_name]

1、新增column並指定字符集/排序規則

例子如下：（建立table類似）

mysql> ALTER TABLE test_table ADD COLUMN char_column VARCHAR(25) CHARACTER SET utf8;

2、檢視column的字符集/字元序

例子如下：

mysql> SELECT CHARACTER_SET_NAME, COLLATION_NAME FROM information_schema.COLUMNS WHERE TABLE_SCHEMA="test_schema" AND TABLE_NAME="test_table" AND COLUMN_NAME="char_column";
+--------------------+-----------------+
| CHARACTER_SET_NAME | COLLATION_NAME  |
+--------------------+-----------------+
| utf8               | utf8_general_ci |
+--------------------+-----------------+
1 row in set (0.00 sec)

3、column字符集/排序規則確定

假設 CHARACTER SET、 COLLATE的值分別是 charset_name、 collation_name：

如果 charset_name、 collation_name均明確，則字符集、字元序以 charset_name、 collation_name為準。
只明確了 charset_name， collation_name未明確，則字符集為 charset_name，字元序為 charset_name的預設字元序。
只明確了 collation_name， charset_name未明確，則字元序為 collation_name，字符集為 collation_name關聯的字符集。
charset_name、 collation_name均未明確，則以table的字符集、字元序為準。

八、選擇：何時設定字符集、字元序

一般來說，可以在三個地方進行配置：

建立資料庫的時候進行配置。
mysql server啟動的時候進行配置。
從原始碼編譯mysql的時候，通過編譯引數進行配置

1、方式一：建立資料庫的時候進行配置

這種方式比較靈活，也比較保險，它不依賴於預設的字符集/字元序。當你建立資料庫的時候指定字符集/字元序，後續建立table、column的時候，如果不特殊指定，會繼承對應資料庫的字符集/字元序。

CREATE DATABASE mydb
  DEFAULT CHARACTER SET utf8
  DEFAULT COLLATE utf8_general_ci;

2、方式二：mysql server啟動的時候進行配置

可以新增以下配置，這樣mysql server啟動的時候，會對character-set-server、collation-server進行配置。

當你通過mysql client建立database/table/column，且沒有顯示宣告字符集/字元序，那麼就會用character-set-server/collation-server作為預設的字符集/字元序。

另外，client、server連線時的字符集/字元序，還是需要通過SET NAMES進行設定。

[mysqld]
character-set-server=utf8
collation-server=utf8_general_ci

3、方式三：從原始碼編譯mysql的時候，通過編譯引數進行設定

編譯的時候如果指定了 -DDEFAULT_CHARSET和 -DDEFAULT_COLLATION，那麼：

建立database、table時，會將其作為預設的字符集/字元序。
client連線server時，會將其作為預設的字符集/字元序。（不用單獨SET NAMES）

shell> cmake . -DDEFAULT_CHARSET=utf8 
           -DDEFAULT_COLLATION=utf8_general_ci

九、寫在後面

本文較為詳細地介紹了MySQL中字符集、字元序相關的內容，這部分內容主要針對的是資料的儲存與比較。其實還有很重要的一部分內容還沒涉及：針對連線的字符集、字元序設定。

由於連線的字符集、字元序設定不當導致的亂碼問題也非常多，這部分內容展開來講內容也不少，放在下一篇文章進行講解。

篇幅所限，有些內容沒有細講，感興趣的同學歡迎交流，或者檢視官方文件。如有錯漏，敬請指出。

十、相關連結

10.1 Character Set Support https://dev.mysql.com/doc/refman/5.7/en/charset.html

覺得本文對你有幫助？請分享給更多人。

Sqoop報錯：Caused by: java.sql.BatchUpdateException: Incorrect string value: '\xF0\xA4\x8F\x81' 再見亂碼：5分鐘讀懂MySQL字符集設定

sqoop從hive匯出到mysql報錯如下： Caused by: java.sql.SQLException: Incorrect string value: \'\\xF0\\xA4\\x8F\\x81\' for column \'role_name\' at row 68

再見亂碼：5 分鐘讀懂 MySQL 字符集設定

作者：程式猿小卡_casper 原文：https://segmentfault.com/a/1190000012775484 一、內容概述

帶你5分鐘讀懂MySQL字符集設定

一、內容概述在MySQL的使用過程中，瞭解字符集、字元序的概念，以及不同設定對資料儲存、比較的影響非常重要。不少同學在日常工作中遇到的“亂碼”問題，很有可能就是因為對字符集與字元序的理解不到位、設定錯誤造

5 分鐘讀懂Python 中的 Hook 鉤子函式

1. 什麼是Hook 經常會聽到鉤子函式(hook function)這個概念，最近在看目標檢測開源框架mmdetection，裡面也出現大量Hook的程式設計方式，那到底什麼是hook？hook的作用是什麼？

5分鐘看懂系列：Python 執行緒池原理及實現

概述傳統多執行緒方案會使用“即時建立，即時銷燬”的策略。儘管與建立程序相比，建立執行緒的時間已經大大的縮短，但是如果提交給執行緒的任務是執行時間較短，而且執行次數極其頻繁，那麼伺服器將處於不停的建立

WebSocket協議：5分鐘從入門到精通

一、內容概覽 WebSocket的出現，使得瀏覽器具備了實時雙向通訊的能力。本文由淺入深，介紹了WebSocket如何建立連線、交換資料的細節，以及資料幀的格式。此外，還簡要介紹了針對WebSocket的安全攻擊，以及協議是如

國慶特別回顧 | 一分鐘讀懂DAO是什麼？

2020年，DeFi無疑是加密市場發展最快的版塊，新的市場爆發將原本一些生僻詞彙變成了常用詞彙，流動性挖礦、AMM、預言機、DEX...如果這些詞彙還不熟悉，這個國慶我們就來學習回顧一下，這個DeFi的夏天給我們

三分鐘讀懂Buyer Messages、Return Request、ODR等亞馬遜售後客服要求！

亞馬遜平臺的客訴處理是賬號安全很重要的一部分，它是賣家與買家溝通的橋樑，也是提高服務口碑的重要渠道。亞馬遜平臺售後客服內容主要包括：Buyer Messages、Return Request、ODR(A-to-Z claims、Feedback

5分鐘看懂Code128條形碼

什麼是Code128條形碼？相信大家看到這個都不陌生吧 1、前言條形碼種類很多，常見的大概有二十多種碼制，其中包括：Code39碼（標準39碼）、Codabar碼（庫德巴碼）、Code25碼（標準25碼）、ITF25碼（交叉25碼）、

一文，5 分鐘搞明白 MySQL 是如何利用索引的！

一、前言在MySQL中進行SQL優化的時候，經常會在一些情況下，對MySQL能否利用索引有一些迷惑。

案例：5分鐘自動跳轉頁面監聽單擊事件倒計時跳轉

技術標籤：JavaScriptjavascript 案例：5分鐘自動跳轉頁面點選跳轉頁面和自動跳轉頁面

datagrip怎麼查看錶結構_兩分鐘看懂 mysql修改表結構(alter table)

技術標籤：datagrip怎麼查看錶結構分享職場生活、職場攻略、程式設計師創業資源，為一線開發者提供優質內容

全球首個活體機器人再升級：5 分鐘自愈嚴重傷口，具備 “記憶”功能

據外媒 Tech Xplore 報道，來自美國塔弗茨大學（Tufts University）和佛蒙特大學（University of Vermont，UVM）的研發團隊成功開發了第二代微型生物機器人 “Xenobots”，同樣基於非洲爪蟾細胞構建。

五分鐘搞懂MySQL主從複製原理，看這篇文章就行了！

五分鐘搞懂MySQL主從複製原理，看這篇文章就行了！面試題模組介紹：一、Java 基礎

5分鐘搞定 MySQL 到 MySQL "異構"資料線上遷移同步

簡述 MySQL 到 MySQL 線上同步不是一個新鮮話題了，但是面對資料來源異構、高度產品化建立、並且穩定運行於線上嚴苛場景，需要做的工作會比一個單純工具或者指令碼多得多。本篇文章僅從功能角度介紹 CloudCanal 如何

1999 元起，小米平板 5/Pro 首銷成績出爐：5 分鐘 20 萬臺

8 月 16 日訊息小米雷軍上週正式釋出了全面屏手機小米 MIX 4、小米平板 5/Pro 等系列新品。小米平板 5 搭載驍龍 860 處理器，價格為 1999 元起；小米平板 5 Pro 則搭載驍龍 870 處理器，價格為 2499 元起。

5分鐘搞定 MySQL 到 ElasticSearch 遷移同步-CloudCanal實戰

簡述本文介紹如何通過 CloudCanal，五分鐘內建立一條長期穩定執行的 MySQL -> ElasticSearch (以下簡稱 ES) 實時資料遷移同步鏈路。

五分鐘搞懂MySQL索引下推

大家好，我是老三，今天分享一個小知識點——索引下推。如果你在面試中，聽到MySQL5.6”、“索引優化” 之類的詞語，你就要立馬get到，這個問的是“索引下推”。

官方科普：一圖讀懂尤拉開源作業系統

1 月 13 日訊息，2021 年9 月 25 日，華為在全聯接大會上釋出了全新作業系統“openEuler 尤拉”。瞭解到，openEuler 是一個開源、免費的 Linux 發行版平臺，將通過開放的社群形式與全球的開發者共同構建軟體生態體系

realme 真我 GT Neo3 全球首發 150W 光速秒充：5 分鐘充至 50%

2 月 28 日訊息，據 realme 官方訊息，真我 GT Neo3 全球首發 150W 光速秒充，5 分鐘即可充至 50%。據報道，realme 還公佈了 UDCA 快充架構，這是首個 100W-200W 快充架構，採用並聯多路電荷泵方式增加充電電流，以

再見亂碼：5 分鐘讀懂 MySQL 字符集設定

一、內容概述

二、字符集、字元序的概念與聯絡

三、MySQL支援的字符集、字元序

1、檢視支援的字符集

2、檢視支援的字元序

3、字元序的命名規範

四、server的字符集、字元序

1、檢視server字符集、字元序

2、啟動服務時指定

3、配置檔案指定

4、執行時修改

5、編譯時指定預設字符集、字元序

五、database的字符集、字元序

1、設定資料的字符集/字元序

2、檢視資料庫的字符集/字元序

3、database字符集、字元序是怎麼確定的

六、table的字符集、字元序

1、建立table並指定字符集/字元序

2、檢視table的字符集/字元序

3、table字符集、字元序如何確定

七、column的字符集、排序

1、新增column並指定字符集/排序規則

2、檢視column的字符集/字元序

3、column字符集/排序規則確定

八、選擇：何時設定字符集、字元序

1、方式一：建立資料庫的時候進行配置

2、方式二：mysql server啟動的時候進行配置

3、方式三：從原始碼編譯mysql的時候，通過編譯引數進行設定

九、寫在後面

十、相關連結

相關推薦