MySQL表字段字符集不同導致的索引失效問題
一、問題描述
昨天晚上,測試小妹妹突然發現,儲存企業資訊的時候突然報錯,我在檢視日誌之後,發現在新增企業管理員的時候儲存企業和使用者關係時執行sql報錯,原因是user_name欄位儲存不了特殊字元,因為使用的是utf-8的編碼格式,因此決定設定為utf8mb4編碼格式,來儲存使用者名稱稱。ALTER TABLE table_name CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;執行了這條sql語句設定了表的字符集為utf8mb4,兩分鐘後,有人提出,日常環境查詢巨慢,才發現問題。通過企業資訊表和企業使用者關係表查詢時速度巨慢無比。sql如下:
select e.* from pub_yht_enterprise e , pub_yht_enterprise_user eu where e.id=eu.enterid and eu.userid= '1b65884d-49e9-4a42-b192-bd9cba095f67'
檢視執行計劃:驚訝的發現 pub_yht_enterprise竟然沒有走主鍵索引,進行了全表掃描,懷疑是設定編碼格式導致的。
通過show full columns from pub_yht_enterprise_user;查看錶欄位的編碼格式,如下圖:
兩張表的企業id欄位編碼不同,更改列的編碼格式ALTER TABLE pub_yht_enterprise_user CHANGE enterid enterid VARCHAR(100) CHARACTER SET utf8 COLLATE utf8_general_ci;再次檢視執行計劃,走了索引:如圖:
問題解決。
二、問題總結
(1)表字符集不同時,可能導致join的SQL使用不到索引,引起嚴重的效能問題;
(2)SQL上線前要做好SQL Review工作,儘量在和生產環境一樣的環境下Review;
(3)改字符集的alter table操作會阻塞寫,儘量在業務低峰操作,建議用pt-online-schema-change;
(4)表結構字符集要保持一致,釋出時要做好稽核工作;
(5)如果要大批量修改表的字符集,同樣做好SQL的Review工作,關聯的表的字符集一起做修改。
三、Mysql修改資料庫、表、欄位字符集說明
修改表字符集:
ALTER TABLE tbl_name DEFAULT CHARACTER SET character_name [COLLATE ...];
把表預設的字符集和所有字元列(CHAR,VARCHAR,TEXT)改為新的字符集:
ALTER TABLE tbl_name CONVERT TO CHARACTER SET character_name [COLLATE ...]
如:ALTER TABLE logtest CONVERT TO CHARACTER SET utf8 COLLATE utf8_general_ci;
只是修改表的預設字符集:
ALTER TABLE tbl_name DEFAULT CHARACTER SET character_name [COLLATE...];
如:ALTER TABLE logtest DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;
修改欄位的字符集:
ALTER TABLE tbl_name CHANGE c_name c_name CHARACTER SET character_name [COLLATE ...];
如:ALTER TABLE logtest CHANGE title title VARCHAR(100) CHARACTER SET utf8 COLLATE utf8_general_ci;
檢視資料庫編碼:
SHOW CREATE DATABASE db_name;
查看錶編碼:
SHOW CREATE TABLE tbl_name;
檢視欄位編碼:
SHOW FULL COLUMNS FROM tbl_name;
檢視系統的編碼字元
SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%';
四、升級utf8到utf8mb4
1、備份
安全第一,備份所有需要升級字元編碼的資料庫
- 可以將庫dump出來。
- 如果是虛擬機器,可以給整個主機做快照。
2、升級資料庫
utf8mb4是MySQL5.5.3版本之後支援的字符集,so,如果你需要使用這個字符集,前提條件是你的MySQL版本必須 >= 5.5.3
3、修改編碼集
在MySQL中,可以為一個database設定字元編碼,可以為一張表設定字元編碼,也以為某一個欄位設定字元編碼。
- 檢視當前系統預設的字符集設定
SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%';
- 檢視database的字元編碼
show create database polarsnow;
- 檢視table的字元編碼
show create table ps;
- 檢視column的字元編碼
show full columns from ps;
修改database預設的字符集
ALTER DATABASE database_name CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci
雖然修改了database的字符集為utf8mb4,但是實際只是修改了database新建立的表,預設使用utf8mb4,原來已經存在的表,字符集並沒有跟著改變,需要手動為每張表設定字符集。
修改table的字符集
- 只修改表預設的字符集
ALTER TABLE table_name DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
- 修改表預設的字符集和所有字元列的字符集
ALTER TABLE table_name CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
單獨修改column預設的字符集
ALTER TABLE table_name CHANGE column_name column_name VARCHAR(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
注:VARCHAR(191) 根據欄位例項的型別填寫
4、檢查欄位的最大長度和索引列
- 欄位長度
由於從utf8升級到了utf8mb4,一個字元所佔用的空間也由3個位元組增長到4個位元組,但是我們當初建立表時,設定的欄位型別以及最大的長度沒有改變。例如,你在utf8下設定某一欄位的型別為TINYTEXT
, 這中欄位型別最大可以容納255位元組,三個位元組一個字元的情況下可以容納85個字元,四個位元組一個字元的情況下只能容納63個字元,如果原表中的這個欄位的值有一個或多個超過了63個字元,那麼轉換成utf8mb4字元編碼時將轉換失敗,你必須先將TINYTEXT
更改為TEXT
等更高容量的型別之後才能繼續轉換字元編碼
- 索引
在InnoDB引擎中,最大的索引長度為767位元組,三個位元組一個字元的情況下,索引列的字元長度最大可以達到255,四個位元組一個字元的情況下,索引的字元長度最大隻能到191。如果你已經存在的表中的索引列的型別為VARCHAR(255)
那麼轉換utf8mb4時同樣會轉換失敗。你需要先將VARCHAR(255)
更改為VARCHAR(191)
才能繼續轉換字元編碼
5、修改配置檔案
SET NAMES utf8 COLLATE utf8_unicode_ci
becomes SET NAMES utf8mb4 COLLATE utf8mb4_unicode_ci
> vim /etc/my.cnf # 對本地的mysql客戶端的配置 [client] default-character-set = utf8mb4 # 對其他遠端連線的mysql客戶端的配置 [mysql] default-character-set = utf8mb4 # 本地mysql服務的配置 [mysqld] character-set-client-handshake = FALSE character-set-server = utf8mb4 collation-server = utf8mb4_unicode_ci > service mysqld restart
檢查修改
mysql> SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%'; +--------------------------+--------------------+ | Variable_name | Value | +--------------------------+--------------------+ | character_set_client | utf8mb4 | | character_set_connection | utf8mb4 | | character_set_database | utf8mb4 | | character_set_filesystem | binary | | character_set_results | utf8mb4 | | character_set_server | utf8mb4 | | character_set_system | utf8 | | collation_connection | utf8mb4_unicode_ci | | collation_database | utf8mb4_unicode_ci | | collation_server | utf8mb4_unicode_ci | +--------------------------+--------------------+ 10 rows in set (0.00 sec)
注:character_set_system 一直都會是 utf8,不能被更改
6. 修復&優化所有資料表
mysqlcheck -u root -p --auto-repair --optimize --all-databases
五、總結
就一句話,上生產環境一定要評估sql,大家一起看,要執行的sql帶來的影響,慎重再慎重,防止生產環境事故的發生