一、背景說明

vivo 在 2016 年引入 RabbitMQ，基於開源 RabbitMQ 進行擴充套件，向業務提供訊息中介軟體服務。

2016~2018年，所有業務均使用一個叢集，隨著業務規模的增長，叢集負載越來越重，叢集故障頻發。

2019年，RabbitMQ 進入高可用建設階段，完成了高可用元件 MQ 名字服務以及 RabbitMQ 叢集的同城雙活建設。

同時進行業務使用叢集的物理拆分，嚴格按照叢集負載情況和業務流量進行業務使用叢集的分配以及動態調整。

在 2019 年高可用建設後至今，業務流量增加了十倍，叢集未出現過嚴重故障。

RabbitMQ 是實現了 AMQP 協議的開源訊息代理軟體，起源於金融系統。

具有豐富的特性：

訊息可靠性保證，RabbitMQ 通過傳送確認保證訊息傳送可靠、通過叢集化、訊息持久化、映象佇列的方式保證訊息在叢集的可靠、通過消費確認保證訊息消費的可靠性。

RabbitMQ 提供了多種語言的客戶端。

提供了多種型別的 exchange，訊息傳送到集群后通過exchange路由到具體的queue中。

RabbitMQ 提供了完善的管理後臺和管理 API，通過管理API可以快速與自建監控系統整合。

RabbitMQ 在具體實踐中發現的問題：

為保障業務高可用使用多套叢集進行物理隔離，多套叢集無統一平臺進行管理

原生RabbitMQ客戶端使用叢集地址連線，使用多套叢集時業務需要關心叢集地址，使用混亂。

原生RabbitMQ僅有簡單的使用者名稱/密碼驗證，不對使用的業務應用方進行鑑權，不同業務容易混用exchange/queue資訊，造成業務應用使用異常。

使用的業務應用方較多，無平臺維護訊息傳送方、消費方的關聯資訊，多個版本迭代後無法確定對接方。

客戶端無限流，業務突發異常流量衝擊甚至擊垮叢集。

客戶端無異常訊息重發策略，需要使用方實現。

叢集出現記憶體溢位等造成叢集阻塞時無法快速自動轉移到其它可用叢集。

使用映象佇列，佇列的master節點會落在具體某個節點上，在叢集佇列數較多時，容易出現節點負載不均衡的情況。

RabbitMQ無佇列自動平衡能力，在佇列較多時容易出現叢集節點負載不均問題。

二、整體架構

1、MQ-Portal--支援應用使用申請

過往業務團隊適用RabbitMQ時，應用申請的流量以及對接的應用等資訊都線上下表格記錄，較為零散，更新不及時，無法準確瞭解業務當前真實的使用情況，因此通過一個接入申請的流程視覺化、平臺化建立應用使用的元資料資訊。

通過MQ-Portal的申請流程（如上圖），確定了訊息傳送應用、消費應用、使用exchange/queue、傳送流量等資訊使用申請提交後將進入vivo內部工單流程進行審批。

工單流程審批通過後，通過工單的介面回撥，分配應用具體使用的叢集，並在叢集上建立exchange/queue已經繫結關係。

由於採用多叢集物理隔離的方式保證業務在正式環境的高可用，無法簡單通過一個exchange/queue的名稱定位到使用的叢集。

每一個exchange/queue與叢集之間通過唯一的一對rmq.topic.key與rmq.secret.key進行關聯，這樣SDK啟動過程中即可定位到具體使用的叢集。

rmq.topic.key與rmq.secret.key將在工單的回撥介面中進行分配。

2、客戶端SDK能力概述

客戶端SDK基於spring-message和spring-rabbit進行封裝，並在此基礎上提供了應用使用鑑權、叢集定址、客戶端限流、生產消費重置、阻塞轉移等能力。

2.1、應用使用鑑權

開源RabbitMQ僅通過使用者名稱密碼的方式判斷是否允許連線叢集，但是應用是否允許使用exchange/queue是未進行校驗的。

為了避免不同業務混用exchange/queue，需要對應用進行使用鑑權。

應用鑑權由SDK和MQ-NameServer協同完成。

應用啟動時首先會上報應用配置的rmq.topic.key資訊到MQ-NameServer，由MQ-NameServer判斷使用應用與申請應用是否一致，並且在SDK傳送訊息過程中還會進行二次校驗。

/**
  * 傳送前校驗，並且獲取真正的傳送factory，這樣業務可以宣告多個，
  * 但是用其中一個bean就可以傳送所有的訊息，並且不會導致任何異常
  * @param exchange 校驗引數
  * @return 傳送工廠
*/
public AbstractMessageProducerFactory beforeSend(String exchange) {
    if(closed || stopped){
        //上下文已經關閉丟擲異常，阻止繼續傳送，減少傳送臨界狀態資料
        throw new RmqRuntimeException(String.format("producer sending message to exchange %s has closed, can't send message", this.getExchange()));
    }
    if (exchange.equals(this.exchange)){
        return this;
    }
    if (!VIVO_RMQ_AUTH.isAuth(exchange)){
        throw new VivoRmqUnAuthException(String.format("傳送topic校驗異常，請勿向無許可權exchange %s 傳送資料，傳送失敗", exchange));
    }
    //獲取真正的傳送的bean，避免傳送錯誤
    return PRODUCERS.get(exchange);
}

2.2、叢集定址

前文說過，應用使用RabbitMQ嚴格按照叢集的負載情況和業務流量進行叢集的分配，因此具體某個應用使用的的不同的exchange/queue可能是分配在不同的叢集上的。

為了提升業務的開發效率，需要遮蔽多叢集對業務的影響，因此按照應用配置的rmq.topic.key資訊進行叢集的自動定址。

2.3、客戶端限流

原生SDK客戶端不進行傳送流量限流，在部分應用存在異常持續向MQ傳送訊息時，可能會沖垮MQ叢集。並且一個叢集為多應用共同使用，單一應用造成叢集影響將會影響使用異常叢集的所有應用。

因此需要在SDK中提供客戶端限流的能力，必要時可以限制應用向叢集傳送訊息，保障叢集的穩定。

2.4、生產消費重置

（1）隨著業務規模增長，叢集負載持續增加，此時需要進行叢集的業務拆分。為了減少在拆分過程中避免業務重啟，需要有生產消費重置功能。

（2）叢集出現異常，可能會造成消費者掉線，此時通過生產消費重置可以快速拉起業務消費。

為了實現生產消費重置，需要實現一下流程：

重置連線工廠連線引數

重置連線

建立新的連線

重新啟動生產消費

CachingConnectionFactory connectionFactory = new CachingConnectionFactory();
connectionFactory.setAddresses(address);
connectionFactory.resetConnection();
rabbitAdmin = new RabbitAdmin(connectionFactory);
rabbitTemplate = new RabbitTemplate(connectionFactory);

同時MQ-SDK中有異常訊息重發策略，可以避免在生產重置過程中導致的訊息傳送異常。

2.5、阻塞轉移

RabbitMQ在記憶體使用超過40%，或是磁碟使用超限制時會阻塞訊息傳送。

由於vivo中介軟體團隊已經完成了RabbitMQ同城雙活的建設，因此在出現一個叢集傳送阻塞時可以通過生產消費重置到雙活叢集完成阻塞的快速轉移。

2.6、多叢集排程

隨著應用的發展，單叢集將無法滿足應用的流量需求，並且叢集佇列均為映象佇列，無法簡單的通過增加叢集節點的方式實現業務支撐流量單叢集的水平擴容。

因此需要SDK支援多叢集排程能力，通過將流量分散到多個叢集上滿足業務大流量需求。

3、MQ-NameServer--支援MQ-SDK實現故障快速切換

MQ-NameServer為無狀態服務，通過叢集部署即可保障自身高可用，主要用於解決以下問題：

MQ-SDK啟動鑑權以及應用使用叢集定位。

處理MQ-SDK的定時指標上報（訊息傳送數量、訊息消費數量），並且返回當前可用叢集地址，確保SDK在叢集異常時按照正確地址進行重連。

控制MQ-SDK進行生產消費重置。

4、MQ-Server高可用部署實踐

RabbitMQ 叢集均採用同城雙活部署架構，依靠MQ-SDK和MQ-NameServer提供的叢集定址、故障快速切換等能力保障叢集的可用性。

4.1、叢集腦裂問題處理

RabbitMQ官方提供了三種叢集腦裂恢復策略。

（1）ignore

忽略腦裂問題不處理，在出現腦裂時需要進行人為干預才可恢復。由於需要人為干預，可能會造成部分訊息丟失，在網路非常可靠的情況可以使用。

（2）pause_minority

節點在與超過半數叢集節點失聯時將會自動暫停，直到檢測到與叢集超半數節點的通訊恢復。極端情況下叢集內所有節點均暫停，造成叢集不可用。

（3）autoheal

少數派節點將自動重啟，此策略主要用於優先保證服務的可用性，而不是資料的可靠性，因為重啟節點上的訊息會丟失。

由於RabbitMQ叢集均為同城雙活部署，即使單叢集異常業務流量也可自動遷移到雙活機房叢集，因此選擇使用了pause_minority策略避免腦裂問題。

2018年多次因網路抖動造成叢集腦裂，在修改叢集腦裂恢復策略後，已未再出現腦裂問題。

4.2、叢集高可用方案

RabbitMQ採用叢集化部署，並且因為叢集腦裂恢復策略採用pause_minority模式，每個叢集要求至少3個節點。

推薦使用5或7節點部署高可用叢集，並且控制叢集佇列數量。

叢集佇列均為映象佇列，確保訊息存在備份，避免節點異常導致訊息丟失。

exchange、queue、訊息均設定為持久化，避免節點異常重啟訊息丟失。

佇列均設定為lazy queues，減少節點記憶體使用的波動。

4.3、同城雙活建設

雙機房部署等價叢集，並且通過Federation外掛將雙叢集組成聯盟叢集。

本機房應用機器優先連線本機房MQ叢集，避免因專線抖動造成應用使用異常。

通過MQ-NameServer心跳獲取最新的可用叢集資訊，異常時重連到雙活叢集中，實現應用功能的快速恢復。

三、未來挑戰與展望

目前對RabbitMQ的使用增強主要在MQ-SDK和MQ-NameServer側，SDK實現較為複雜，後期希望可以構建訊息中介軟體的代理層，可以簡化SDK並且對業務流量做更加細緻化的管理。

作者：derek

相關推薦

vivo 基於原生 RabbitMQ 的高可用架構實踐

一、背景說明 vivo 在 2016 年引入 RabbitMQ，基於開源 RabbitMQ 進行擴充套件，向業務提供訊息中介軟體服務。 2016~2018年，所有業務均使用一個叢集，隨著業務規模的增長，叢集負載越來越重，叢集故障頻發。 2019年，RabbitMQ 進入高可用建設階段，完成了高可用元件 MQ

實現基於Haproxy_NAT+Keepalived負載均衡高可用架構

haproxy實驗思路：1.做這個實驗首先可以想象一個場景，用戶訪問webserver的時候首先會經過調度器，首先需要明白的一點就是一般公司一般是在內網，客戶端是通過外網訪問webserver的。2.haproxy是一個負載均衡器，Keepalived通過VRRP功能能再結合LVS負載均衡軟件即可部署一個高性

實現基於Haproxy+Keepalived負載均衡高可用架構

keepalived+haproxy一：環境準備centos系統服務器4臺，兩臺用於做haproxy主從架構，兩臺作為後端server,服務器配置好yum源，防火墻關閉，關閉selinux,各節點時鐘服務同步，各節點之間可以通過主機名互相通信。二：安裝步驟1.iptables –F &&set

基於DR模式的keepalived主從模式高可用架構搭建

linuxkeepalived高可用一：架構圖示2.keepalived是什麽？Keepalived的作用是檢測服務器的狀態，如果有一臺web服務器宕機，或工作出現故障，Keepalived將檢測到，通過VRRP協議，將有故障的服務器從系統中剔除，同時使用其他服務器代替該服務器的工作，當服務器工作正常後 K

基於Consul的數據庫高可用架構【轉】

main mas sentinel rec handle mat nload hand unless 幾個月沒有更新博客了，已經長草了，特意來除草。本次主要分享如何利用consul來實現redis以及mysql的高可用。以前的公司mysql是單機單實例，高可用MHA加vip

MySQL高可用架構之基於MHA的搭建

MySQL高可用架構之基於MHA的搭建一、MySQL MHA架構介紹： MHA（Master High Availability）目前在MySQL高可用方面是一個相對成熟的解決方案，它由日本DeNA公司youshimaton（現就職於Facebook公司）開發，是一套

深入學習Redis高可用架構：哨兵原理及實踐

在進入正文之前，順便在此給大家推薦一個Java架構方面的交流學習群：698581634，裡面會分享一些資深架構師錄製的視訊錄影：有Spring，MyBatis，Netty原始碼分析，高併發、高效能、分散式、微服務架構的原理，JVM效能優化這些成為架構師必備的知識體系，

三七互娛DBA溫國兵：Redis高可用架構最佳實踐

作者：溫國兵，曾任職於酷狗音樂，現為三七互娛 DBA。目前主要關注領域：資料庫自動化運維、高可用架構設計、資料庫安全、海量資料解決方案、以及開源技術在網際網路中的應用。 Redis 是一個開源的使用 ANSI C 語言編寫、支援網路、可基於記憶體亦可持久化的日誌型、Key-Value 資料庫，並提供

網際網路高可用架構技術實踐

作者/沈劍，“架構師之路”公眾號作者，58到家高階總監，技術委員會主席。前百度高工，58同城高架，技委主席。一、什麼是高可用高可用HA（High Availability）是分散式系統架構設計中必須考慮的因素之一，它通常是指，通過設計減少系統不能提供服務的時間

基於 ES 的高可用搜索服務架構

搜尋，對大家而言既耳熟能詳又廣為使用，且與我們日常生活密切相關，相信大家每天都離不開Google或百度等，電商像淘寶、京東、亞馬遜都提供了非常強大的搜尋功能。本場Chat結合當前主流開源搜尋產品ElasticSearch，從技術角度向大家介紹高可用搜索服務架構。文章主要內容如

mysql高可用架構誰能提供具體實踐例項！！！

mysql高可用架構目前只查到4中解決方案，如下所示，但是沒有具體實踐，看到本部落格的大神們，能不能給我提供一些實踐的例項，謝謝！！！！！ 1 Lvs+keeplived+mysql 的方案單點寫入讀負載均衡主主同步高可用方案 2 Heartbeat 高可用MySQ

美團點評基於MGR的CMDB高可用架構搭建之路

王志朋美團點評DBA 曾在京東金融擔任DBA，目前就職於美團點評，主要負責金融業務線資料庫及基礎元件資料庫的運維。

MySQL之高可用架構—MHA

mysql mha MySQL高可用目前有heartbeat+drbd、MHA、MySQL復制等幾種較成熟的方案，heartbeat+drbd的方案可擴展性較差，而且讀寫都由主服務器負責，從庫並不提供讀功能，適合於數據增長量不大、一致性要求很高的環境，如銀行、金融業等。今天重點講下MHA的高可用架構。

基於HAProxy+Keepalived高可用負載均衡web服務的搭建

1.2 epo cnblogs oba backup 保持 ica mysql redis 一原理簡介 1.HAProxyHAProxy提供高可用性、負載均衡以及基於TCP和HTTP應用的代理，支持虛擬主機，它是免費、快速並且可靠的一種解決方案。HAProxy特別適用於那

MySQL高可用架構之MHA

mysql1、關於MHAMHA(Master HA)是一款開源的MySQL的高可用程序，它為MySQL主從復制架構提供了automating master failover功能。MHA在監控到master節點故障時，會提升其中擁有的最新數據的slave節點成為新的master節點，在此期間，MHA會通過其它從

CentOS 搭建 Mysql MMM 高可用架構

install 高可用 padding log isa har mmm_mond replica tro 環境 CentOS Mysql 5.1 前提安裝了EPEL，詳細安裝步驟請參照 http://blog.csdn.net/robinsonmhj/articl

京東618：商城交易平臺的高可用架構之路

資源系統定位問題修復 tle 峰值網絡寫入差異據騰訊科技報道，6月18日零點，京東全民年中購物節拉開了高潮的序幕。第一個小時的銷售額超過去年同期的250%。從淩晨開始的海量訂單讓6月1日就拉開序幕的京東年中購物節奏出最強音，大量用戶瞬間湧入，峰值訂單被不斷刷新

mysql mha高可用架構的安裝

pin 變量 log-bin dump 控制 masters 否則 ava 1.5 MMM無法全然地保證數據的一致性，所以MMM適用於對數據的一致性要求不是非常高。可是又想最大程度的保證業務可用性的場景對於那些對數據一致性要求非常高的業務，非常不建議採用MMM的這樣

單表60億記錄等大數據場景的MySQL優化和運維之道 | 高可用架構

點數據 dump fwe wide 更新 lock redo 可靠 index 015-08-09 楊尚剛高可用架構此文是根據楊尚剛在【QCON高可用架構群】中，針對MySQL在單表海量記錄等場景下，業界廣泛關註的MySQL問題的經驗分享整理而成，轉發請註明出處。楊

高可用架構(轉載）

get ges 其他廣泛優先 ssi 聯網 asp.net 目前一、可用性度量與考核　　首先，不得不說：要保證一個網站永遠完全可用幾乎是一件不可能完成的任務（Mission Impossible，是不是有點碟中諜的感覺）。　　（1）如何度量網站可用性？　　一