我的架構夢：（五十二）分庫分表實戰及中介軟體之實戰背景

阿新 • • 發佈：2020-10-13

一、實戰背景

1、背景描述

剛開始我們的系統只用了單機資料庫
隨著使用者的不斷增多，考慮到系統的高可用和越來越多的使用者請求，我們開始使用資料庫主從架構
當用戶量級和業務進一步提升後，寫請求越來越多，這時我們開始使用了分庫分表

2、遇到的問題

使用者請求量太大
單伺服器TPS、記憶體、IO都是有上限的，需要將請求打散分佈到多個伺服器
單庫資料量太大
單個數據庫處理能力有限;單庫所在伺服器的磁碟空間有限;單庫上的操作IO有瓶頸
單表資料量太大
查詢、插入、更新操作都會變慢，在加欄位、加索引、機器遷移都會產生高負載，影響服務

3、如何解決

3.1 垂直拆分

3.1.1 垂直分庫

微服務架構時，業務切割得足夠獨立，資料也會按照業務切分，保證業務資料隔離，大大提升了資料庫的吞吐能力。

在這裡插入圖片描述

3.1.2 垂直分表

表中欄位太多且包含大欄位的時候，在查詢時對資料庫的IO、記憶體會受到影響，同時更新資料時，產生的binlog檔案會很大，MySQL在主從同步時也會有延遲的風險。

在這裡插入圖片描述

3.2 水平拆分

3.2.1 水平分表

針對資料量巨大的單張表(比如訂單表)，按照規則把一張表的資料切分到多張表裡面去。
但是這些表還是在同一個庫中，所以庫級別的資料庫操作還是有IO瓶頸。

在這裡插入圖片描述

3.2.2 水平分庫

將單張表的資料切分到多個伺服器上去，每個伺服器具有相應的庫與表，只是表中資料集合不同。水平分庫分表能夠有效的緩解單機和單庫的效能瓶頸和壓力，突破IO、連線數、硬體資源等的瓶頸。

在這裡插入圖片描述

4、水平分庫規則

不跨庫、不跨表，保證同一類的資料都在同一個伺服器上面。

資料在切分之前，需要考慮如何高效的進行資料獲取，如果每次查詢都要跨越多個節點，就需要謹慎使用。

5、水平分表規則

5.1 RANGE

時間:按照年、月、日去切分。例如order_2020、order_202005、order_20200501
地域:按照省或市去切分。例如order_beijing、order_shanghai、order_shenzhen
大小:從0到1000000一個表。例如1000001-2000000放一個表，每100萬放一個表

5.2 HASH

使用者ID取模
不同的業務使用的切分規則是不一樣，就上面提到的切分規則，舉例如下:

(1) 站內信
使用者維度:使用者只能看到傳送給自己的訊息，其他使用者是不可見的，這種情況下是按照

使用者ID hash分庫，在使用者檢視歷史記錄翻頁查詢時，所有的查詢請求都在同一個庫內。
(2) 使用者表
範圍法:以使用者ID為劃分依據，將資料水平切分到兩個資料庫例項，如:1到1000W在一張表，1000W到2000W在一張表，這種情況會出現單表的負載較高。
(3) 按照使用者ID HASH儘量保證使用者資料均衡分到資料庫中

如果在登入場景下，使用者輸入手機號和驗證碼進行登入，這種情況下，登入時是
不是需要掃描所有分庫的資訊?
最終方案:使用者資訊採用ID做切分處理，同時儲存使用者ID和手機號的對映的關係表(新增一個關係表)，關係表採用手機號進行切分。可以通過關係表根據手機號查詢到對應的ID，再定位使用者資訊。

(4) 流水錶
時間維度:可以根據每天新增的流水來判斷，選擇按照年份分庫，還是按照月份分庫，
甚至也可以按照日期分庫
(5) 訂單表
在BOSS平臺，求職者(下面統稱C端使用者)投遞企業(下面統稱B端使用者)的職位產生的記錄稱之為訂單表。在線上的業務場景中，C端使用者看自己的投遞記錄，每次的投遞到了哪個狀態， B端使用者檢視自己收到的簡歷，對於合適的簡歷會進行下一步溝通，同一個公司內的員工可以協作處理簡歷。

如何能同時滿足C端和B端對資料查詢，不進行跨庫處理?
最終方案:為了同時滿足兩端使用者的業務場景，採用空間換時間，將一次的投遞記錄存為兩份，C端的投遞記錄以使用者ID為分片鍵，B端收到的簡歷按照公司ID為分片鍵。

6、主鍵選擇

UUID:本地生成，不依賴資料庫，缺點就是作為主鍵效能太差
SNOWFLAKE:百度UidGenerator、美團Leaf、基於SNOWFLAKE演算法實現

7、資料一致性

強一致性:XA協議
最終一致性:TCC、saga、Seata

8、資料庫擴容

成倍增加資料節點，實現平滑擴容
成倍擴容以後，表中的部分資料請求已被路由到其他節點上面，可以清理掉

9、業務層改造

基於代理層方式:Mycat、Sharding-Proxy、MySQL Proxy
基於應用層方式:Sharding-jdbc

10、分庫後面臨的問題

事務問題:一次投遞需要插入兩條記錄，且分佈在不同的伺服器上，資料需要保障一致性。
跨庫跨表的join問題
全域性表(字典表):基礎資料/配置資料，所有庫都拷貝一份
欄位冗餘:可以使用欄位冗餘就不用join查詢了
系統層組裝:可以在業務層分別查詢出來，然後組裝起來，邏輯較複雜
額外的資料管理負擔和資料運算壓力:資料庫擴容、維護成本變高

我的架構夢：（五十二）分庫分表實戰及中介軟體之實戰背景

一、實戰背景 1、背景描述剛開始我們的系統只用了單機資料庫隨著使用者的不斷增多，考慮到系統的高可用和越來越多的使用者請求，我們開始使用資料庫主從架構當用戶量級和業務進一步提升後，寫請求越來越多

Hadoop基礎（五十二）：企業級調優（二）

4 資料傾斜 4.1 合理設定 Map 數 1）通常情況下，作業會通過 input 的目錄產生一個或者多個 map 任務。

大資料實戰（五十二）：電商數倉（三十五）之系統業務資料倉庫（八）GMV成交總額

1 ADS層 1.1 什麼是GMV 1.2建表語句 hive (gmall)> drop table if exists ads_gmv_sum_day; create external table ads_gmv_sum_day(

大資料實戰（六十八）：電商數倉（五十二）Cloudera Manager（三）CM部署準備

1 連線阿里雲伺服器開啟遠端連線工具進行配置，這裡以CRT為例。 1）新建一個session

ES基礎（五十二）Hot & Warm 架構與 Shard Filtering

課程程式碼 # 標記一個 Hot 節點 bin/elasticsearch-E node.name=hotnode -E cluster.name=geektime -E path.data=hot_data -E node.attr.my_node_type=hot

FastAPI 學習之路（五十二）WebSockets(八)接受/傳送json格式訊息

相對於之前的text的訊息來說，我們之前傳送的訊息都是text的居多，那麼對於text格式的訊息來說，我們處理起來，尤其是後端要麻煩的多，那麼我們可不可以傳遞json格式的，對於前後端來說都好處理的一種格式的訊息，那

劍指offer（五十七）：二叉樹的下一個結點

題目描述給定一個二叉樹和其中的一個結點，請找出中序遍歷順序的下一個結點並且返回。注意，樹中的結點不僅包含左右子結點，同時包含指向父結點的指標。

劍指offer（五十八）：對稱的二叉樹

題目描述請實現一個函式，用來判斷一棵二叉樹是不是對稱的。注意，如果一個二叉樹同此二叉樹的映象是同樣的，定義其為對稱的。

大資料實戰（四十二）：電商數倉（三十五）之使用者行為資料倉庫（二十一）月活躍率

月活躍使用者與截止到該月累計的使用者總和之間的比例 1 DWS層使用DWS層月活表以及ADS新增使用者表作為DWS層

大資料實戰（五十六）：電商數倉（三十九）之系統業務資料倉庫（十二）新付費使用者數

1 DWS層 1.1 建表語句 drop table if exists dws_pay_user_detail; create external table dws_pay_user_detail(

大資料實戰（五十九）：電商數倉（四十二）之系統業務資料倉庫（十五）商品每日銷量排行Top10

1 DWS層使用使用者購買商品明細寬表作為DWS資料 2 ADS層 2.1 建表語句 drop table if exists ads_goods_order_count_day;

大資料實戰（七十二）：電商數倉（五十六）數倉之使用者行為數倉搭建（一）使用者行為日誌生成以及日誌資料匯入數倉

1使用者行為日誌生成 1）將log-collector-1.0-SNAPSHOT-jar-with-dependencies.jar上傳到hadoop102的/opt/module目錄

大資料實戰（七十三）：電商數倉（五十七）數倉之使用者行為數倉搭建（二）ODS層,DWD層,DWS層,ADS層

1 ODS層原始資料層，存放原始資料，直接載入原始日誌、資料，資料保持原貌不做處理。

大資料實戰（七十八）：電商數倉（六十二）數倉之業務數倉搭建（五）ADS層（需求：GMV成交總額）

1建表語句 hive (gmall)> drop table if exists ads_gmv_sum_day; create external table ads_gmv_sum_day(

Flink例項（五十六）：自定義時間和視窗的操作符（十一）TimestampAssigner介面（二）生成水印的三個過載方法

https://www.cnblogs.com/Springmoon-venn/p/11403665.html Timestamp 和Watermark 的概念: 1. Timestamp和Watermark都是基於事件的時間欄位生成的

Flink例項（五十八）：維表join（二）Flink維表Join實踐

https://blog.csdn.net/chybin500/article/details/106482620/ 這個文章是根據【實時數倉篇】基於 Flink 的典型 ETL 場景實現寫的，對視訊中講解的四種維表Join分別實現了一些Demo。

Hadoop基礎（五十七）：其他面試題ES（二）

來源：https://mp.weixin.qq.com/s/MU87hW3W2S1Fi6CqnnXAGA 問題列表和答案來自國外部落格（原文答案不準確，有錯誤），為避免誤導，我對每個問題做了屬於自己的理解和解答。

Hadoop基礎（五十一）：企業級調優（一）

1 Fetch 抓取 Fetch 抓取是指，Hive 中對某些情況的查詢可以不必使用 MapReduce 計算。例如：

大資料實戰（三十九）：電商數倉（三十二）之使用者行為資料倉庫（十八）每個使用者累計訪問次數

0 每個使用者累計訪問次數結果如下使用者日期小計總計 mid1 2019-12-14 10 10 mid1 2019-02-11 12 22

大資料實戰（五十四）：電商數倉（三十七）之系統業務資料倉庫（十）品牌復購率

需求：以月為單位統計，購買2次以上商品的使用者 1 復購率計算分析 2 DWS層 2.1 使用者購買商品明細表（寬表）

我的架構夢：（五十二） 分庫分表實戰及中介軟體之實戰背景

一、實戰背景

相關推薦

我的架構夢：（五十二）分庫分表實戰及中介軟體之實戰背景