Mysql 調優和水平擴展思路
系統調優參數
一些比較重要的參數:
-
back_log:back_log值指出在MySQL暫時停止回答新請求之前的短時間內多少個請求可以被存在堆棧中。如果MySql的連接數據達到max_connections時,新來的請求將會被存在堆棧中,以等待某一連接釋放資源,該堆棧的數量即back_log,如果等待連接的數量超過back_log,將不被授予連接資源。可以從默認的50升至500
-
wait_timeout:數據庫連接閑置時間,閑置連接會占用內存資源。可以從默認的8小時減到半小時
-
max_user_connection: 最大連接數,默認為0無上限,最好設一個合理上限
-
thread_concurrency:並發線程數,設為CPU核數的兩倍
-
skip_name_resolve:禁止對外部連接進行DNS解析,消除DNS解析時間,但需要所有遠程主機用IP訪問
-
key_buffer_size:索引塊的緩存大小,增加會提升索引處理速度,對MyISAM表性能影響最大。對於內存4G左右,可設為256M或384M,通過查詢
show status like ‘key_read%‘
,保證key_reads / key_read_requests
在0.1%以下最好 -
innodb_buffer_pool_size:緩存數據塊和索引塊,對InnoDB表性能影響最大。通過查詢
show status like ‘Innodb_buffer_pool_read%‘
(Innodb_buffer_pool_read_requests – Innodb_buffer_pool_reads) / Innodb_buffer_pool_read_requests
越高越好 -
innodb_additional_mem_pool_size:InnoDB存儲引擎用來存放數據字典信息以及一些內部數據結構的內存空間大小,當數據庫對象非常多的時候,適當調整該參數的大小以確保所有數據都能存放在內存中提高訪問效率,當過小的時候,MySQL會記錄Warning信息到數據庫的錯誤日誌中,這時就需要該調整這個參數大小
-
innodb_log_buffer_size:InnoDB存儲引擎的事務日誌所使用的緩沖區,一般來說不建議超過32MB
-
query_cache_size:緩存MySQL中的ResultSet,也就是一條SQL語句執行的結果集,所以僅僅只能針對select語句。當某個表的數據有任何任何變化,都會導致所有引用了該表的select語句在Query Cache中的緩存數據失效。所以,當我們的數據變化非常頻繁的情況下,使用Query Cache會得不償失。根據命中率
(Qcache_hits/(Qcache_hits+Qcache_inserts)*100))
進行調整,不建議太大,256MB可能已經差不多了,大型的配置型靜態數據可適當調大.可以通過命令show status like ‘Qcache_%‘
查看目前系統Query catch使用大小 - read_buffer_size:MySql讀入緩沖區大小。對表進行順序掃描的請求將分配一個讀入緩沖區,MySql會為它分配一段內存緩沖區。如果對表的順序掃描請求非常頻繁,可以通過增加該變量值以及內存緩沖區大小提高其性能
- sort_buffer_size:MySql執行排序使用的緩沖大小。如果想要增加
ORDER BY
的速度,首先看是否可以讓MySQL使用索引而不是額外的排序階段。如果不能,可以嘗試增加sort_buffer_size變量的大小 - read_rnd_buffer_size:MySql的隨機讀緩沖區大小。當按任意順序讀取行時(例如,按照排序順序),將分配一個隨機讀緩存區。進行排序查詢時,MySql會首先掃描一遍該緩沖,以避免磁盤搜索,提高查詢速度,如果需要排序大量數據,可適當調高該值。但MySql會為每個客戶連接發放該緩沖空間,所以應盡量適當設置該值,以避免內存開銷過大。
- record_buffer:每個進行一個順序掃描的線程為其掃描的每張表分配這個大小的一個緩沖區。如果你做很多順序掃描,可能想要增加該值
- thread_cache_size:保存當前沒有與連接關聯但是準備為後面新的連接服務的線程,可以快速響應連接的線程請求而無需創建新的
- table_cache:類似於thread_cache_size,但用來緩存表文件,對InnoDB效果不大,主要用於MyISAM
表分區
MySQL在5.1版引入的分區是一種簡單的水平拆分,用戶需要在建表的時候加上分區參數,對應用是透明的無需修改代碼
用戶的SQL語句需要針對分區表做優化,SQL條件中要帶上分區條件的列,從而使查詢定位到少量的分區上,否則就會掃描全部分區,
可以通過EXPLAIN PARTITIONS
來查看某條SQL語句會落在那些分區上,從而進行SQL優化,如5條記錄落在兩個分區上:
mysql> explain partitions select count(1) from user_partition where id in (1,2,3,4,5); +----+-------------+----------------+------------+-------+---------------+---------+---------+------+------+--------------------------+ | id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | Extra | +----+-------------+----------------+------------+-------+---------------+---------+---------+------+------+--------------------------+ | 1 | SIMPLE | user_partition | p1,p4 | range | PRIMARY | PRIMARY | 8 | NULL | 5 | Using where; Using index | +----+-------------+----------------+------------+-------+---------------+---------+---------+------+------+--------------------------+ 1 row in set (0.00 sec)
分區的好處是:
-
可以讓單表存儲更多的數據
-
分區表的數據更容易維護,可以通過清楚整個分區批量刪除大量數據,也可以增加新的分區來支持新插入的數據。另外,還可以對一個獨立分區進行優化、檢查、修復等操作
-
部分查詢能夠從查詢條件確定只落在少數分區上,速度會很快
-
分區表的數據還可以分布在不同的物理設備上,從而搞笑利用多個硬件設備
-
可以使用分區表賴避免某些特殊瓶頸,例如InnoDB單個索引的互斥訪問、ext3文件系統的inode鎖競爭
-
可以備份和恢復單個分區
分區的限制和缺點:
-
一個表最多只能有1024個分區
-
如果分區字段中有主鍵或者唯一索引的列,那麽所有主鍵列和唯一索引列都必須包含進來
-
分區表無法使用外鍵約束
-
NULL值會使分區過濾無效
-
所有分區必須使用相同的存儲引擎
分區的類型:
-
RANGE分區:基於屬於一個給定連續區間的列值,把多行分配給分區
-
LIST分區:類似於按RANGE分區,區別在於LIST分區是基於列值匹配一個離散值集合中的某個值來進行選擇
-
HASH分區:基於用戶定義的表達式的返回值來進行選擇的分區,該表達式使用將要插入到表中的這些行的列值進行計算。這個函數可以包含MySQL中有效的、產生非負整數值的任何表達式
-
KEY分區:類似於按HASH分區,區別在於KEY分區只支持計算一列或多列,且MySQL服務器提供其自身的哈希函數。必須有一列或多列包含整數值
分庫分表
垂直拆分
垂直分庫是根據數據庫裏面的數據表的相關性進行拆分,比如:一個數據庫裏面既存在用戶數據,又存在訂單數據,那麽垂直拆分可以把用戶數據放到用戶庫、把訂單數據放到訂單庫。垂直分表是對數據表進行垂直拆分的一種方式,常見的是把一個多字段的大表按常用字段和非常用字段進行拆分,每個表裏面的數據記錄數一般情況下是相同的,只是字段不一樣,使用主鍵關聯。
垂直拆分的優點是:
-
可以使得行數據變小,一個數據塊(Block)就能存放更多的數據,在查詢時就會減少I/O次數(每次查詢時讀取的Block 就少)
-
可以達到最大化利用Cache的目的,具體在垂直拆分的時候可以將不常變的字段放一起,將經常改變的放一起
-
數據維護簡單
缺點是:
-
主鍵出現冗余,需要管理冗余列
-
會引起表連接JOIN操作(增加CPU開銷)可以通過在業務服務器上進行join來減少數據庫壓力
-
依然存在單表數據量過大的問題(需要水平拆分)
-
事務處理復雜
水平拆分
水平拆分是通過某種策略將數據分片來存儲,分(庫內分表和分庫)兩部分,每片數據會分散到不同的MySQL表或庫,達到分布式的效果,能夠支持非常大的數據量。前面的表分區本質上也是一種特殊的庫內分表
庫內分表,僅僅是單純的解決了單一表數據過大的問題,由於沒有把表的數據分布到不同的機器上,因此對於減輕MySQL服務器的壓力來說,並沒有太大的作用,大家還是競爭同一個物理機上的IO、CPU、網絡,這個就要通過分庫來解決。
水平拆分的優點是:
-
不存在單庫大數據和高並發的性能瓶頸
-
應用端改造較少
-
提高了系統的穩定性和負載能力
缺點是:
-
分片事務一致性難以解決
-
跨節點Join性能差,邏輯復雜
-
數據多次擴展難度跟維護量極大
解決方案(客戶端架構和代理架構)
客戶端架構
通過修改數據訪問層,如JDBC、Data Source、MyBatis,通過配置來管理多個數據源,直連數據庫,並在模塊內完成數據的分片整合,一般以Jar包的方式呈現。
客戶端架構的優點是:
-
應用直連數據庫,降低外圍系統依賴所帶來的宕機風險
-
集成成本低,無需額外運維的組件
缺點是:
-
限於只能在數據庫訪問層上做文章,擴展性一般,對於比較復雜的系統可能會力不從心
-
將分片邏輯的壓力放在應用服務器上,造成額外風險
代理架構
通過獨立的中間件來統一管理所有數據源和數據分片整合,後端數據庫集群對前端應用程序透明,需要獨立部署和運維代理組件。
代理組件為了分流和防止單點,一般以集群形式存在,同時可能需要Zookeeper之類的服務組件來管理
代理架構的優點是:
-
能夠處理非常復雜的需求,不受數據庫訪問層原來實現的限制,擴展性強
-
對於應用服務器透明且沒有增加任何額外負載
缺點是:
-
需部署和運維獨立的代理中間件,成本高
-
應用需經過代理來連接數據庫,網絡上多了一跳,性能有損失且有額外風險
各方案比較
如此多的方案,如何進行選擇?可以按以下思路來考慮:
-
確定是使用代理架構還是客戶端架構。中小型規模或是比較簡單的場景傾向於選擇客戶端架構,復雜場景或大規模系統傾向選擇代理架構
-
具體功能是否滿足,比如需要跨節點
ORDER BY
,那麽支持該功能的優先考慮 -
不考慮一年內沒有更新的產品,說明開發停滯,甚至無人維護和技術支持
-
最好按大公司->社區->小公司->個人這樣的出品方順序來選擇
-
選擇口碑較好的,比如github星數、使用者數量質量和使用者反饋
-
開源的優先,往往項目有特殊需求可能需要改動源代碼
按照上述思路,推薦以下選擇:
-
客戶端架構:ShardingJDBC
-
代理架構:MyCat或者Atlas
NoSQL&雲服務
如果想將原始的MySQL遷移到可水平擴展的新數據庫中,可以考慮一些雲數據庫:
-
阿裏雲PetaData
-
阿裏雲OceanBase
-
騰訊雲DCDB
事實上很多大表本身對MySQL這種RDBMS的需求並不大,並不要求ACID。
以下場景可以考慮將這些表遷移到NoSQL,徹底解決水平擴展問題,例如:
-
日誌類、監控類、統計類數據
-
非結構化或弱結構化數據
-
對事務要求不強,且無太多關聯操作的數據
Mysql 調優和水平擴展思路