Redis 復制、Sentinel的搭建和原理說明（轉）

阿新 • • 發佈：2017-09-10

單個高可用模式 ogre 出現 password 並不會 shc generated

Redis 復制、Sentinel的搭建和原理說明

轉自：http://www.cnblogs.com/zhoujinyi/p/5570024.html.

背景：

Redis-Sentinel是Redis官方推薦的高可用性(HA)解決方案，當用Redis做Master-slave的高可用方案時，假如master宕機了，Redis本身(包括它的很多客戶端)都沒有實現自動進行主備切換，而Redis-sentinel本身也是一個獨立運行的進程，它能監控多個master-slave集群，發現master宕機後能進行自動切換，更多的信息見前一篇說明。它的主要功能有以下幾點：

1，不時地監控redis是否按照預期良好地運行;
2，如果發現某個redis節點運行出現狀況，能夠通知另外一個進程(例如它的客戶端);
3，能夠進行自動切換。當一個master節點不可用時，能夠選舉出master的多個slave(如果有超過一個slave的話)中的一個來作為新的master,其它的slave節點會將它所追隨的master的地址改為被提升為master的slave的新地址。

Redis-Replication

1）搭建

復制的配置很簡單，就一個參數：

slaveof <主數據庫IP> <端口>

可以添加在配置文件裏，也可以在命令行中執行。如主數據庫IP是192.168.200.25 端口是6379：(配置多臺從數據庫的方法也一樣)

slaveof 192.168.200.25 6379

註意：通過命令行進行的復制，在主從斷開或則主從重啟之後復制信息會丟失，即不能保證持久復制，需要再次執行slaveof。但是在配置文件裏寫死slaveof不會有該問題。默認情況下從庫是只讀的，不能進行修改，需要修改需要設置配置文件中的slave-read-only

為no。在命令行裏執行slaveof no one可以讓一個從庫變成主庫。

2）原理（執行步驟）

①從數據庫向主數據庫發送sync命令。

②主數據庫接收sync命令後，執行BGSAVE命令（保存快照），創建一個RDB文件，在創建RDB文件期間的命令將保存在緩沖區中。

③當主數據庫執行完BGSAVE時，會向從數據庫發送RDB文件，而從數據庫會接收並載入該文件。

④主數據庫將緩沖區的所有寫命令發給從服務器執行。

⑤以上處理完之後，之後主數據庫每執行一個寫命令，都會將被執行的寫命令發送給從數據庫。

註意：在Redis2.8之前，主從斷線或則重啟之後再重連接，都需要做一次完整的sync操作（5步驟），即使斷線期間只有幾條的更新操作或則是沒有操作，導致系統資源極度浪費。Redis2.8之後，會用一個psync來替換sync，不會進行完成的sync操作，只需要同步斷線期間的記錄。相關參數：repl-backlog-size、repl-backlog-ttl

大致的示意圖如下：

技術分享

3）相關的參數，註釋掉的參數都是使用默認值。

################################# REPLICATION #################################
#復制選項，slave復制對應的master。
# slaveof <masterip> <masterport>

#如果master設置了requirepass，那麽slave要連上master，需要有master的密碼才行。masterauth就是用來配置master的密碼，這樣可以在連上master後進行認證。
# masterauth <master-password>

#當從庫同主機失去連接或者復制正在進行，從機庫有兩種運行方式：1) 如果slave-serve-stale-data設置為yes(默認設置)，從庫會繼續響應客戶端的請求。2) 如果slave-serve-stale-data設置為no，除去INFO和SLAVOF命令之外的任何請求都會返回一個錯誤”SYNC with master in progress”。
slave-serve-stale-data yes

#作為從服務器，默認情況下是只讀的（yes），可以修改成NO，用於寫（不建議）。
slave-read-only yes

#是否使用socket方式復制數據。目前redis復制提供兩種方式，disk和socket。如果新的slave連上來或者重連的slave無法部分同步，就會執行全量同步，master會生成rdb文件。有2種方式：disk方式是master創建一個新的進程把rdb文件保存到磁盤，再把磁盤上的rdb文件傳遞給slave。socket是master創建一個新的進程，直接把rdb文件以socket的方式發給slave。disk方式的時候，當一個rdb保存的過程中，多個slave都能共享這個rdb文件。socket的方式就的一個個slave順序復制。在磁盤速度緩慢，網速快的情況下推薦用socket方式。
repl-diskless-sync no

#diskless復制的延遲時間，防止設置為0。一旦復制開始，節點不會再接收新slave的復制請求直到下一個rdb傳輸。所以最好等待一段時間，等更多的slave連上來。
repl-diskless-sync-delay 5

#slave根據指定的時間間隔向服務器發送ping請求。時間間隔可以通過 repl_ping_slave_period 來設置，默認10秒。
# repl-ping-slave-period 10

#復制連接超時時間。master和slave都有超時時間的設置。master檢測到slave上次發送的時間超過repl-timeout，即認為slave離線，清除該slave信息。slave檢測到上次和master交互的時間超過repl-timeout，則認為master離線。需要註意的是repl-timeout需要設置一個比repl-ping-slave-period更大的值，不然會經常檢測到超時。
# repl-timeout 60

#是否禁止復制tcp鏈接的tcp nodelay參數，可傳遞yes或者no。默認是no，即使用tcp nodelay。如果master設置了yes來禁止tcp nodelay設置，在把數據復制給slave的時候，會減少包的數量和更小的網絡帶寬。但是這也可能帶來數據的延遲。默認我們推薦更小的延遲，但是在數據量傳輸很大的場景下，建議選擇yes。
repl-disable-tcp-nodelay no

#復制緩沖區大小，這是一個環形復制緩沖區，用來保存最新復制的命令。這樣在slave離線的時候，不需要完全復制master的數據，如果可以執行部分同步，只需要把緩沖區的部分數據復制給slave，就能恢復正常復制狀態。緩沖區的大小越大，slave離線的時間可以更長，復制緩沖區只有在有slave連接的時候才分配內存。沒有slave的一段時間，內存會被釋放出來，默認1m。
# repl-backlog-size 5mb

#master沒有slave一段時間會釋放復制緩沖區的內存，repl-backlog-ttl用來設置該時間長度。單位為秒。
# repl-backlog-ttl 3600

#當master不可用，Sentinel會根據slave的優先級選舉一個master。最低的優先級的slave，當選master。而配置成0，永遠不會被選舉。
slave-priority 100

#redis提供了可以讓master停止寫入的方式，如果配置了min-slaves-to-write，健康的slave的個數小於N，mater就禁止寫入。master最少得有多少個健康的slave存活才能執行寫命令。這個配置雖然不能保證N個slave都一定能接收到master的寫操作，但是能避免沒有足夠健康的slave的時候，master不能寫入來避免數據丟失。設置為0是關閉該功能。
# min-slaves-to-write 3

#延遲小於min-slaves-max-lag秒的slave才認為是健康的slave。
# min-slaves-max-lag 10

4）總結

Redis目前的復制是異步的，只保證最終一致性，而不是強一致性（主從數據庫的更新還是分先後，先主後從）。要是一致性要求高的應用，目前還是讀寫都在主庫上去。

Redis-Sentinel：需要對redis和sentinel的配置文件有rewrite的權限。

1）搭建：（環境：redis服務3個實例10086、10087、10088；sentinel服務3個監控：20086、20087、20088）

sentinel是一個"監視器"，根據被監視實例的身份和狀態來判斷該執行何種操作。通過給定的配置文件來發現主服務器的，再通過向主服務器發送的info信息來發現該主服務器的從服務器。Sentinel 實際上就是一個運行在 Sentienl 模式下的 Redis 服務器,所以我們同樣可以使用以下命令來啟動一個 Sentinel實例。運行方式如下：

redis-sentinel /path/to/sentinel.conf

參數配置文件：

port 20086      #默認端口26379

dir "/tmp"

logfile "/var/log/redis/sentinel_20086.log"

daemonize yes

#格式：sentinel <option_name> <master_name> <option_value>；#該行的意思是：監控的master的名字叫做T1（自定義）,地址為127.0.0.1:10086，行尾最後的一個2代表在sentinel集群中，多少個sentinel認為masters死了，才能真正認為該master不可用了。
sentinel monitor T1 127.0.0.1 10086 2  

#sentinel會向master發送心跳PING來確認master是否存活，如果master在“一定時間範圍”內不回應PONG 或者是回復了一個錯誤消息，那麽這個sentinel會主觀地(單方面地)認為這個master已經不可用了(subjectively down, 也簡稱為SDOWN)。而這個down-after-milliseconds就是用來指定這個“一定時間範圍”的，單位是毫秒，默認30秒。
sentinel down-after-milliseconds T1 15000

#failover過期時間，當failover開始後，在此時間內仍然沒有觸發任何failover操作，當前sentinel將會認為此次failoer失敗。默認180秒，即3分鐘。
sentinel failover-timeout T1 120000

#在發生failover主備切換時，這個選項指定了最多可以有多少個slave同時對新的master進行同步，這個數字越小，完成failover所需的時間就越長，但是如果這個數字越大，就意味著越多的slave因為replication而不可用。可以通過將這個值設為 1 來保證每次只有一個slave處於不能處理命令請求的狀態。
sentinel parallel-syncs T1 1

#sentinel 連接設置了密碼的主和從
#sentinel auth-pass <master_name> xxxxx

#發生切換之後執行的一個自定義腳本：如發郵件、vip切換等
##sentinel notification-script <master-name> <script-path>     ##不會執行，疑問？
#sentinel client-reconfig-script <master-name> <script-path>  ##這個會執行

註意：要是參數配置的是默認值，在sentinel運行時該參數會在配置文件文件裏被刪除掉，直接不顯示。也可以在運行時用命令SENTINEL SET command動態修改，後面說明。

很顯然，只使用單個sentinel進程來監控redis集群是不可靠的，當sentinel進程宕掉後(sentinel本身也有單點問題，single-point-of-failure)整個集群系統將無法按照預期的方式運行。所以有必要將sentinel集群，這樣有幾個好處：

1：即使有一些sentinel進程宕掉了，依然可以進行redis集群的主備切換；
2：如果只有一個sentinel進程，如果這個進程運行出錯，或者是網絡堵塞，那麽將無法實現redis集群的主備切換（單點問題）;
3：如果有多個sentinel，redis的客戶端可以隨意地連接任意一個sentinel來獲得關於redis集群中的信息。

本文開啟sentinel集群用了3個實例，保證各個端口和目錄不一致，配置文件如下：

sentinel_20086.conf ：

port 20086

dir "/var/lib/sentinel_20086"

logfile "/var/log/redis/sentinel_20086.log"

daemonize yes

sentinel monitor T1 127.0.0.1 10086 2

sentinel down-after-milliseconds T1 15000

sentinel failover-timeout T1 120000

sentinel parallel-syncs T1 1

#發生切換之後執行的一個自定義腳本：如發郵件、vip切換等
#sentinel notification-script <master-name> <script-path>

port 20086

dir "/var/lib/sentinel_20086"

logfile "/var/log/redis/sentinel_20086.log"

daemonize yes

sentinel monitor T1 127.0.0.1 10086 2

sentinel down-after-milliseconds T1 15000

sentinel failover-timeout T1 120000

sentinel parallel-syncs T1 1

#發生切換之後執行的一個自定義腳本：如發郵件、vip切換等
#sentinel notification-script <master-name> <script-path>

sentinel_20087.conf ：

port 20087

dir "/var/lib/sentinel_20087"

logfile "/var/log/redis/sentinel_20087.log"

daemonize yes

sentinel monitor T1 127.0.0.1 10086 2

sentinel down-after-milliseconds T1 15000

sentinel failover-timeout T1 120000

sentinel parallel-syncs T1 1

#發生切換之後執行的一個自定義腳本：如發郵件、vip切換等
#sentinel notification-script <master-name> <script-path>

port 20087

dir "/var/lib/sentinel_20087"

logfile "/var/log/redis/sentinel_20087.log"

daemonize yes

sentinel monitor T1 127.0.0.1 10086 2

sentinel down-after-milliseconds T1 15000

sentinel failover-timeout T1 120000

sentinel parallel-syncs T1 1

#發生切換之後執行的一個自定義腳本：如發郵件、vip切換等
#sentinel notification-script <master-name> <script-path>

sentinel_20088.conf ：

port 20088

dir "/var/lib/sentinel_20086"

logfile "/var/log/redis/sentinel_20088.log"

daemonize yes

sentinel monitor T1 127.0.0.1 10086 2

sentinel down-after-milliseconds T1 15000

sentinel failover-timeout T1 120000

sentinel parallel-syncs T1 1

#發生切換之後執行的一個自定義腳本：如發郵件、vip切換等
#sentinel notification-script <master-name> <script-path>

port 20088

dir "/var/lib/sentinel_20086"

logfile "/var/log/redis/sentinel_20088.log"

daemonize yes

sentinel monitor T1 127.0.0.1 10086 2

sentinel down-after-milliseconds T1 15000

sentinel failover-timeout T1 120000

sentinel parallel-syncs T1 1

#發生切換之後執行的一個自定義腳本：如發郵件、vip切換等
#sentinel notification-script <master-name> <script-path>

疑問：這裏的參數 sentinel notification-script <master-name> <script-path>好像切換的時候不會執行，參數sentinel client-reconfig-script<master-name> <script-path>倒是會執行，可以用這個參數來替換上面的參數。

啟動sentinel：

[email protected]:/etc/redis# redis-sentinel /etc/redis/sentinel_20086.conf 
[email protected]:/etc/redis# redis-sentinel /etc/redis/sentinel_20087.conf 
[email protected]:/etc/redis# redis-sentinel /etc/redis/sentinel_20088.conf

註意：當一個master配置為需要密碼才能連接時，客戶端和slave在連接時都需要提供密碼。master通過requirepass設置自身的密碼，不提供密碼無法連接到這個master。slave通過masterauth來設置訪問master時的密碼。客戶端需要auth提供密碼，但是當使用了sentinel時，由於一個master可能會變成一個slave，一個slave也可能會變成master，所以需要同時設置上述兩個配置項，並且sentinel需要連接master和slave，需要設置參數：sentinel auth-pass <master_name> xxxxx。

啟動後各個sentinel的日誌信息如下：

3462:X 08 Jun 18:07:54.820 # Sentinel runid is b44bb512b3b756c97f48aff1dc37b54a30659ee9
3462:X 08 Jun 18:07:54.820 # +monitor master T1 127.0.0.1 10086 quorum 2  #主加入監控
3462:X 08 Jun 18:07:54.823 * +slave slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 #檢測到一個slave並添加進slave列表
3462:X 08 Jun 18:07:54.823 * +slave slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 #檢測到一個slave並添加進slave列表
3462:X 08 Jun 18:07:59.515 * +sentinel sentinel 127.0.0.1:20087 127.0.0.1 20087 @ T1 127.0.0.1 10086 #增加了一個sentinel
3462:X 08 Jun 18:08:01.820 * +sentinel sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10086 #增加了一個sentinel

關於更多的信息見：

  +reset-master <instance details> -- 當master被重置時.
    +slave <instance details> -- 當檢測到一個slave並添加進slave列表時.
    +failover-state-reconf-slaves <instance details> -- Failover狀態變為reconf-slaves狀態時
    +failover-detected <instance details> -- 當failover發生時
    +slave-reconf-sent <instance details> -- sentinel發送SLAVEOF命令把它重新配置時
    +slave-reconf-inprog <instance details> -- slave被重新配置為另外一個master的slave，但數據復制還未發生時。
    +slave-reconf-done <instance details> -- slave被重新配置為另外一個master的slave並且數據復制已經與master同步時。
    -dup-sentinel <instance details> -- 刪除指定master上的冗余sentinel時 (當一個sentinel重新啟動時，可能會發生這個事件).
    +sentinel <instance details> -- 當master增加了一個sentinel時。
    +sdown <instance details> -- 進入SDOWN狀態時;
    -sdown <instance details> -- 離開SDOWN狀態時。
    +odown <instance details> -- 進入ODOWN狀態時。
    -odown <instance details> -- 離開ODOWN狀態時。
    +new-epoch <instance details> -- 當前配置版本被更新時。
    +try-failover <instance details> -- 達到failover條件，正等待其他sentinel的選舉。
    +elected-leader <instance details> -- 被選舉為去執行failover的時候。
    +failover-state-select-slave <instance details> -- 開始要選擇一個slave當選新master時。
    no-good-slave <instance details> -- 沒有合適的slave來擔當新master
    selected-slave <instance details> -- 找到了一個適合的slave來擔當新master
    failover-state-send-slaveof-noone <instance details> -- 當把選擇為新master的slave的身份進行切換的時候。
    failover-end-for-timeout <instance details> -- failover由於超時而失敗時。
    failover-end <instance details> -- failover成功完成時。
    switch-master <master name> <oldip> <oldport> <newip> <newport> -- 當master的地址發生變化時。通常這是客戶端最感興趣的消息了。
    +tilt -- 進入Tilt模式。
    -tilt -- 退出Tilt模式。

  +reset-master <instance details> -- 當master被重置時.
    +slave <instance details> -- 當檢測到一個slave並添加進slave列表時.
    +failover-state-reconf-slaves <instance details> -- Failover狀態變為reconf-slaves狀態時
    +failover-detected <instance details> -- 當failover發生時
    +slave-reconf-sent <instance details> -- sentinel發送SLAVEOF命令把它重新配置時
    +slave-reconf-inprog <instance details> -- slave被重新配置為另外一個master的slave，但數據復制還未發生時。
    +slave-reconf-done <instance details> -- slave被重新配置為另外一個master的slave並且數據復制已經與master同步時。
    -dup-sentinel <instance details> -- 刪除指定master上的冗余sentinel時 (當一個sentinel重新啟動時，可能會發生這個事件).
    +sentinel <instance details> -- 當master增加了一個sentinel時。
    +sdown <instance details> -- 進入SDOWN狀態時;
    -sdown <instance details> -- 離開SDOWN狀態時。
    +odown <instance details> -- 進入ODOWN狀態時。
    -odown <instance details> -- 離開ODOWN狀態時。
    +new-epoch <instance details> -- 當前配置版本被更新時。
    +try-failover <instance details> -- 達到failover條件，正等待其他sentinel的選舉。
    +elected-leader <instance details> -- 被選舉為去執行failover的時候。
    +failover-state-select-slave <instance details> -- 開始要選擇一個slave當選新master時。
    no-good-slave <instance details> -- 沒有合適的slave來擔當新master
    selected-slave <instance details> -- 找到了一個適合的slave來擔當新master
    failover-state-send-slaveof-noone <instance details> -- 當把選擇為新master的slave的身份進行切換的時候。
    failover-end-for-timeout <instance details> -- failover由於超時而失敗時。
    failover-end <instance details> -- failover成功完成時。
    switch-master <master name> <oldip> <oldport> <newip> <newport> -- 當master的地址發生變化時。通常這是客戶端最感興趣的消息了。
    +tilt -- 進入Tilt模式。
    -tilt -- 退出Tilt模式。

2）原理

①sentinel集群通過給定的配置文件發現master，啟動時會監控master。通過向master發送info信息獲得該服務器下面的所有從服務器。
②sentinel集群通過命令連接向被監視的主從服務器發送hello信息(每秒一次)，該信息包括sentinel本身的ip、端口、id等內容，以此來向其他sentinel宣告自己的存在。
③sentinel集群通過訂閱連接接收其他sentinel發送的hello信息，以此來發現監視同一個主服務器的其他sentinel；集群之間會互相創建命令連接用於通信，因為已經有主從服務器作為發送和接收hello信息的中介，sentinel之間不會創建訂閱連接。
④sentinel集群使用ping命令來檢測實例的狀態，如果在指定的時間內（down-after-milliseconds）沒有回復或則返回錯誤的回復，那麽該實例被判為下線。
⑤當failover主備切換被觸發後，failover並不會馬上進行，還需要sentinel中的大多數sentinel授權後才可以進行failover，即進行failover的sentinel會去獲得指定quorum個的sentinel的授權，成功後進入ODOWN狀態。如在5個sentinel中配置了2個quorum，等到2個sentinel認為master死了就執行failover。
⑥sentinel向選為master的slave發送SLAVEOF NO ONE命令，選擇slave的條件是sentinel首先會根據slaves的優先級來進行排序，優先級越小排名越靠前。如果優先級相同，則查看復制的下標，哪個從master接收的復制數據多，哪個就靠前。如果優先級和下標都相同，就選擇進程ID較小的。
⑦sentinel被授權後，它將會獲得宕掉的master的一份最新配置版本號(config-epoch)，當failover執行結束以後，這個版本號將會被用於最新的配置，通過廣播形式通知其它sentinel，其它的sentinel則更新對應master的配置。

①到③是自動發現機制:

以10秒一次的頻率，向被監視的master發送info命令，根據回復獲取master當前信息。
以1秒一次的頻率，向所有redis服務器、包含sentinel在內發送PING命令，通過回復判斷服務器是否在線。
以2秒一次的頻率，通過向所有被監視的master，slave服務器發送當前sentinel，master信息的消息。

④是檢測機制，⑤和⑥是failover機制，⑦是更新配置機制。

註意：因為redis采用的是異步復制，沒有辦法避免數據的丟失。但可以通過以下配置來使得數據不會丟失：min-slaves-to-write 1 、 min-slaves-max-lag 10。一個redis無論是master還是slave，都必須在配置中指定一個slave優先級。要註意到master也是有可能通過failover變成slave的。如果一個redis的slave優先級配置為0，那麽它將永遠不會被選為master，但是它依然會從master哪裏復制數據。

上面大致講解了sentinel的運行機制，更多詳細說明信息見上一篇文章。

3）運行測試

上面已經搭好了一個簡單的測試環境：redis服務3個實例10086（M）、10087（S）、10088（S）；sentinel服務3個監控：20086、20087、20088
現在進行一個故障轉移的操作：0點30分14秒kill掉10086，Sentinel日誌信息：

3466:X 09 Jun 00:30:29.067 # +sdown master T1 127.0.0.1 10086 ##進入主觀不可用(SDOWN)
3466:X 09 Jun 00:30:29.169 # +odown master T1 127.0.0.1 10086 #quorum 2/2 ##投票好了，達到了quorum，進入客觀不可用(ODOWN)
3466:X 09 Jun 00:30:29.169 # +new-epoch 1 ##當前配置版本被更新
3466:X 09 Jun 00:30:29.169 # +try-failover master T1 127.0.0.1 10086 ##達到failover條件，正等待其他sentinel的選舉
3466:X 09 Jun 00:30:29.179 # +vote-for-leader e106f1eaffdaa10babef3f5858a7cb8d05ffe9ea 1 ##選舉
3466:X 09 Jun 00:30:29.183 # 127.0.0.1:20088 voted for e106f1eaffdaa10babef3f5858a7cb8d05ffe9ea 1 ##選舉
3466:X 09 Jun 00:30:29.184 # 127.0.0.1:20086 voted for e106f1eaffdaa10babef3f5858a7cb8d05ffe9ea 1 ##選舉
3466:X 09 Jun 00:30:29.241 # +elected-leader master T1 127.0.0.1 10086 ##執行failover
3466:X 09 Jun 00:30:29.242 # +failover-state-select-slave master T1 127.0.0.1 10086 ##開始要選擇一個slave當選新master
3466:X 09 Jun 00:30:29.344 # +selected-slave slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 ##找到了一個適合的slave來擔當新master
3466:X 09 Jun 00:30:29.344 * +failover-state-send-slaveof-noone slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 ##當把選擇為新master的slave的身份進行切換
3466:X 09 Jun 00:30:29.447 * +failover-state-wait-promotion slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086
3466:X 09 Jun 00:30:30.206 # +promoted-slave slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086
3466:X 09 Jun 00:30:30.207 # +failover-state-reconf-slaves master T1 127.0.0.1 10086 ##Failover狀態變為reconf-slaves
3466:X 09 Jun 00:30:30.273 * +slave-reconf-sent slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 ##sentinel發送SLAVEOF命令把它重新配置，重新配置到新主
3466:X 09 Jun 00:30:31.250 * +slave-reconf-inprog slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 ##slave被重新配置為另外一個master的slave，但數據復制還未發生
3466:X 09 Jun 00:30:31.251 * +slave-reconf-done slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 ##slave被重新配置為另外一個master的slave並且數據復制已經與master同步
3466:X 09 Jun 00:30:31.340 # -odown master T1 127.0.0.1 10086 ##離開客觀不可用（ODOWN）
3466:X 09 Jun 00:30:31.340 # +failover-end master T1 127.0.0.1 10086 ##failover成功完成
3466:X 09 Jun 00:30:31.341 # +switch-master T1 127.0.0.1 10086 127.0.0.1 10088 ##master的地址發生變化
3466:X 09 Jun 00:30:31.341 * +slave slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10088 ##檢測到一個slave並添加進slave列表
3466:X 09 Jun 00:30:31.351 * +slave slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088
3466:X 09 Jun 00:30:46.362 # +sdown slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088 ##原主進入主觀不可用狀態

通過日誌信息看到，15秒（down-after-milliseconds）之後進行了failvoer操作，最後操作成功，10088變成了新主，可以通過info sentinel和sentinel maters查看主的信息。把原主開起來，日誌信息：

3466:X 09 Jun 01:00:35.306 # -sdown slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088  ##離開主觀不可用狀態
3466:X 09 Jun 01:00:45.249 * +convert-to-slave slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088 ## 檢測到一個slave並添加進slave列表

通過日誌看到，原主起來之後變成了從。這裏可以發現在redis配置文件（可寫權限）的最後被添加了：

# Generated by CONFIG REWRITE
slaveof 127.0.0.1 10088

在新主上操作，可以同步復制到從庫：

[email protected]:~# redis-cli -p 10088
127.0.0.1:10088> set dxy dxy
OK
127.0.0.1:10088> get dxy
"dxy"
127.0.0.1:10088> 
[email protected]:~# redis-cli -p 10086
127.0.0.1:10086> get dxy
"dxy"
127.0.0.1:10086> 
[email protected]:~# redis-cli -p 10087
127.0.0.1:10087> get dxy
"dxy"

上面測試說明sentinel自動failover成功。要是kill掉一個sentinel實例會怎麽樣？可以看日誌：

3466:X 09 Jun 01:14:51.039 # +sdown sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10087  ##進入主觀不可用
3466:X 09 Jun 01:15:32.610 # -sdown sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10087  ##進入客觀不可用
3466:X 09 Jun 01:15:34.497 * -dup-sentinel master T1 127.0.0.1 10087 #duplicate of 127.0.0.1:20088 or a79f189986ab9d3940de48099e18a99abef4d595  ##刪除指定master上的冗余sentinel時 (當一個sentinel重新啟動時，可能會發生這個事件)
3466:X 09 Jun 01:15:34.498 * +sentinel sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10087  ##檢測到一個sentinel，並進入列表

說明sentinel實例也被其他sentinel監視（上面介紹了各個sentinel相互通信），防止sentinel單點故障。通過日誌看到這麽多信息，這裏需要註意下下面的概念：

① Leader選舉:

其實在sentinels故障轉移中，仍然需要一個“Leader”來調度整個過程：master的選舉以及slave的重配置和同步。當集群中有多個sentinel實例時，如何選舉其中一個sentinel為leader呢？

在配置文件中“can-failover”“quorum”參數，以及“is-master-down-by-addr”指令配合來完成整個過程。

A) “can-failover”用來表明當前sentinel是否可以參與“failover”過程，如果為“YES”則表明它將有能力參與“Leader”的選舉，否則它將作為“Observer”，observer參與leader選舉投票但不能被選舉；

B) “quorum”不僅用來控制master ODOWN狀態確認，同時還用來選舉leader時最小“贊同票”數；

C) “is-master-down-by-addr”，在上文中以及提到，它可以用來檢測“ip + port”的master是否已經處於SDOWN狀態，不過此指令不僅能夠獲得master是否處於SDOWN，同時它還額外的返回當前sentinel本地“投票選舉”的Leader信息(runid);

每個sentinel實例都持有其他的sentinels信息，在Leader選舉過程中(當為leader的sentinel實例失效時，有可能master server並沒失效，註意分開理解)，sentinel實例將從所有的sentinels集合中去除“can-failover = no”和狀態為SDOWN的sentinels，在剩余的sentinels列表中按照runid按照“字典”順序排序後，取出runid最小的sentinel實例，並將它“投票選舉”為Leader，並在其他sentinel發送的“is-master-down-by-addr”指令時將推選的runid追加到響應中。每個sentinel實例都會檢測“is-master-down-by-addr”的響應結果，如果“投票選舉”的leader為自己，且狀態正常的sentinels實例中，“贊同者”的自己的sentinel個數不小於(>=) 50% + 1,且不小與<quorum>，那麽此sentinel就會認為選舉成功且leader為自己。

在sentinel.conf文件中，我們期望有足夠多的sentinel實例配置“can-failover yes”，這樣能夠確保當leader失效時，能夠選舉某個sentinel為leader，以便進行failover。如果leader無法產生，比如較少的sentinels實例有效，那麽failover過程將無法繼續。

② failover過程:

在Leader觸發failover之前，首先wait數秒(隨即0~5)，以便讓其他sentinel實例準備和調整(有可能多個leader??),如果一切正常，那麽leader就需要開始將一個salve提升為master，此slave必須為狀態良好(不能處於SDOWN/ODOWN狀態)且權重值最低(redis.conf中)的，當master身份被確認後，開始failover

A）“+failover-triggered”: Leader開始進行failover，此後緊跟著“+failover-state-wait-start”，wait數秒。

B）“+failover-state-select-slave”: Leader開始查找合適的slave

C）“+selected-slave”: 已經找到合適的slave

D） “+failover-state-sen-slaveof-noone”: Leader向slave發送“slaveof no one”指令，此時slave已經完成角色轉換，此slave即為master

E） “+failover-state-wait-promotition”: 等待其他sentinel確認slave

F）“+promoted-slave”：確認成功

G）“+failover-state-reconf-slaves”: 開始對slaves進行reconfig操作。

H）“+slave-reconf-sent”:向指定的slave發送“slaveof”指令，告知此slave跟隨新的master

I）“+slave-reconf-inprog”: 此slave正在執行slaveof + SYNC過程，如過slave收到“+slave-reconf-sent”之後將會執行slaveof操作。

J）“+slave-reconf-done”: 此slave同步完成，此後leader可以繼續下一個slave的reconfig操作。循環G）

K）“+failover-end”: 故障轉移結束

L）“+switch-master”：故障轉移成功後，各個sentinel實例開始監控新的master。

4）命令查看、修改

查看：

①：info命令

127.0.0.1:20086> info
# Server
redis_version:3.0.0   #版本號
redis_git_sha1:00000000
redis_git_dirty:0
redis_build_id:e7768317ba5bdca5
redis_mode:sentinel  #開啟模式
os:Linux 3.16.0-71-generic x86_64  #系統位數
arch_bits:64
multiplexing_api:epoll
gcc_version:4.8.2
process_id:2767        #線程ID
run_id:319d8c58b9bf26c26ca040b53bdc0764a543648b
tcp_port:20086         #端口
uptime_in_seconds:923  #允許時間
uptime_in_days:0
hz:11
lru_clock:6041117
config_file:/etc/redis/sentinel_20086.conf   #配置文件

# Sentinel
sentinel_masters:1    
sentinel_tilt:0
sentinel_running_scripts:0
sentinel_scripts_queue_length:0
master0:name=T1,status=ok,address=127.0.0.1:10087,slaves=2,sentinels=3  #主name，主ip，多少個slave，多少個sentinel

127.0.0.1:20086> info
# Server
redis_version:3.0.0   #版本號
redis_git_sha1:00000000
redis_git_dirty:0
redis_build_id:e7768317ba5bdca5
redis_mode:sentinel  #開啟模式
os:Linux 3.16.0-71-generic x86_64  #系統位數
arch_bits:64
multiplexing_api:epoll
gcc_version:4.8.2
process_id:2767        #線程ID
run_id:319d8c58b9bf26c26ca040b53bdc0764a543648b
tcp_port:20086         #端口
uptime_in_seconds:923  #允許時間
uptime_in_days:0
hz:11
lru_clock:6041117
config_file:/etc/redis/sentinel_20086.conf   #配置文件

# Sentinel
sentinel_masters:1    
sentinel_tilt:0
sentinel_running_scripts:0
sentinel_scripts_queue_length:0
master0:name=T1,status=ok,address=127.0.0.1:10087,slaves=2,sentinels=3  #主name，主ip，多少個slave，多少個sentinel

也可以單個顯示：info server、info sentinel。

②：sentinel masters，顯示被監控的所有master以及它們的狀態。要是有多個master就顯示多個（復用，監控多個redis，即一個配置文件寫多個），例子就1個master

127.0.0.1:20086> SENTINEL masters
1)  1) "name"   #master name
    2) "T1"
    3) "ip"     #master ip
    4) "127.0.0.1"
    5) "port"   #master port
    6) "10087"
    7) "runid"
    8) "508e7de9f5aa4fdb70126d62a54392fbefc0b11b"
    9) "flags"
   10) "master"
   11) "pending-commands"
   12) "0"
   13) "last-ping-sent"
   14) "0"
   15) "last-ok-ping-reply"
   16) "261"
   17) "last-ping-reply"
   18) "261"
   19) "down-after-milliseconds"  #ping的響應時間
   20) "15000"
   21) "info-refresh"
   22) "620"
   23) "role-reported"
   24) "master"
   25) "role-reported-time"
   26) "1205058"
   27) "config-epoch"             #配置文件版本號
   28) "2"
   29) "num-slaves"               #從的數量
   30) "2"
   31) "num-other-sentinels"      #除本身外還有多少個sentinel
   32) "2"
   33) "quorum"                   #投票數量
   34) "2"
   35) "failover-timeout"         #failover超時時間
   36) "120000"
   37) "parallel-syncs"           #多少個從同步
   38) "1"

③：sentinel master <master_name>，顯示指定master的信息和狀態。

127.0.0.1:20086> sentinel master T1
 1) "name"
 2) "T1"
 3) "ip"
 4) "127.0.0.1"
 5) "port"
 6) "10087"
 7) "runid"
 8) "508e7de9f5aa4fdb70126d62a54392fbefc0b11b"
 9) "flags"
10) "master"
11) "pending-commands"
12) "0"
13) "last-ping-sent"
14) "0"
15) "last-ok-ping-reply"
16) "909"
17) "last-ping-reply"
18) "909"
19) "down-after-milliseconds"
20) "15000"
21) "info-refresh"
22) "5820"
23) "role-reported"
24) "master"
25) "role-reported-time"
26) "1501345"
27) "config-epoch"
28) "2"
29) "num-slaves"
30) "2"
31) "num-other-sentinels"
32) "2"
33) "quorum"
34) "2"
35) "failover-timeout"
36) "120000"
37) "parallel-syncs"
38) "1"

127.0.0.1:20086> sentinel master T1
 1) "name"
 2) "T1"
 3) "ip"
 4) "127.0.0.1"
 5) "port"
 6) "10087"
 7) "runid"
 8) "508e7de9f5aa4fdb70126d62a54392fbefc0b11b"
 9) "flags"
10) "master"
11) "pending-commands"
12) "0"
13) "last-ping-sent"
14) "0"
15) "last-ok-ping-reply"
16) "909"
17) "last-ping-reply"
18) "909"
19) "down-after-milliseconds"
20) "15000"
21) "info-refresh"
22) "5820"
23) "role-reported"
24) "master"
25) "role-reported-time"
26) "1501345"
27) "config-epoch"
28) "2"
29) "num-slaves"
30) "2"
31) "num-other-sentinels"
32) "2"
33) "quorum"
34) "2"
35) "failover-timeout"
36) "120000"
37) "parallel-syncs"
38) "1"

④：sentinel slaves <master_name>，顯示指定master的所有slave以及它們的狀態。

127.0.0.1:20086> sentinel slaves T1
1)  1) "name"
    2) "127.0.0.1:10088"
    3) "ip"
    4) "127.0.0.1"
    5) "port"
    6) "10088"
    7) "runid"
    8) "380a4d9e32aefd3a00c7a64ba8bce451643044f1"
    9) "flags"
   10) "slave"
   11) "pending-commands"
   12) "0"
   13) "last-ping-sent"
   14) "0"
   15) "last-ok-ping-reply"
   16) "15"
   17) "last-ping-reply"
   18) "15"
   19) "down-after-milliseconds"
   20) "15000"
   21) "info-refresh"
   22) "7558"
   23) "role-reported"
   24) "slave"
   25) "role-reported-time"
   26) "1934978"
   27) "master-link-down-time"
   28) "0"
   29) "master-link-status"
   30) "ok"
   31) "master-host"
   32) "127.0.0.1"
   33) "master-port"
   34) "10087"
   35) "slave-priority"
   36) "100"
   37) "slave-repl-offset"
   38) "361068"
2)  1) "name"
    2) "127.0.0.1:10086"
    3) "ip"
    4) "127.0.0.1"
    5) "port"
    6) "10086"
    7) "runid"
    8) "9babf78ee2b420d2671b12f93b68c4d19a5edf08"
    9) "flags"
   10) "slave"
   11) "pending-commands"
   12) "0"
   13) "last-ping-sent"
   14) "0"
   15) "last-ok-ping-reply"
   16) "15"
   17) "last-ping-reply"
   18) "15"
   19) "down-after-milliseconds"
   20) "15000"
   21) "info-refresh"
   22) "7558"
   23) "role-reported"
   24) "slave"
   25) "role-reported-time"
   26) "1934978"
   27) "master-link-down-time"
   28) "0"
   29) "master-link-status"
   30) "ok"
   31) "master-host"
   32) "127.0.0.1"
   33) "master-port"
   34) "10087"
   35) "slave-priority"
   36) "100"
   37) "slave-repl-offset"
   38) "361068"

127.0.0.1:20086> sentinel slaves T1
1)  1) "name"
    2) "127.0.0.1:10088"
    3) "ip"
    4) "127.0.0.1"
    5) "port"
    6) "10088"
    7) "runid"
    8) "380a4d9e32aefd3a00c7a64ba8bce451643044f1"
    9) "flags"
   10) "slave"
   11) "pending-commands"
   12) "0"
   13) "last-ping-sent"
   14) "0"
   15) "last-ok-ping-reply"
   16) "15"
   17) "last-ping-reply"
   18) "15"
   19) "down-after-milliseconds"
   20) "15000"
   21) "info-refresh"
   22) "7558"
   23) "role-reported"
   24) "slave"
   25) "role-reported-time"
   26) "1934978"
   27) "master-link-down-time"
   28) "0"
   29) "master-link-status"
   30) "ok"
   31) "master-host"
   32) "127.0.0.1"
   33) "master-port"
   34) "10087"
   35) "slave-priority"
   36) "100"
   37) "slave-repl-offset"
   38) "361068"
2)  1) "name"
    2) "127.0.0.1:10086"
    3) "ip"
    4) "127.0.0.1"
    5) "port"
    6) "10086"
    7) "runid"
    8) "9babf78ee2b420d2671b12f93b68c4d19a5edf08"
    9) "flags"
   10) "slave"
   11) "pending-commands"
   12) "0"
   13) "last-ping-sent"
   14) "0"
   15) "last-ok-ping-reply"
   16) "15"
   17) "last-ping-reply"
   18) "15"
   19) "down-after-milliseconds"
   20) "15000"
   21) "info-refresh"
   22) "7558"
   23) "role-reported"
   24) "slave"
   25) "role-reported-time"
   26) "1934978"
   27) "master-link-down-time"
   28) "0"
   29) "master-link-status"
   30) "ok"
   31) "master-host"
   32) "127.0.0.1"
   33) "master-port"
   34) "10087"
   35) "slave-priority"
   36) "100"
   37) "slave-repl-offset"
   38) "361068"

⑤：sentinel get-master-addr-by-name <master_name>，返回指定master的ip和端口，如果正在進行failover或者failover已經完成，將會顯示被提升為master的slave的ip和端口。

27.0.0.1:20086> sentinel get-master-addr-by-name T1
1) "127.0.0.1"
2) "10087"

⑥：sentinel reset <pattern>：重置名字匹配該正則表達式的所有的master的狀態信息，清除其之前的狀態信息，以及slaves信息。比如刪除一個slave或則sentinel時候，先關閉停止想要刪除的進程，再執行：

sentinel reset *

⑦：sentinel failover <master_name> 強制sentinel執行failover，並且不需要得到其他sentinel的同意。但是failover後會將最新的配置發送給其他sentinel。

127.0.0.1:20086> sentinel failover T1
OK
127.0.0.1:20086> sentinel get-master-addr-by-name T1
1) "127.0.0.1"
2) "10088"         #主被切換了

⑧：查看其他sentinel信息

sentinel sentinels T1

⑨：檢查sentinel監控是否正確

sentinel ckquorum T1

⑩：配置文件丟失，重寫配置文件

sentinel flushconfig

修改：包括參數

①：sentinel monitor <master_mname> <ip> <port> <quorum> ，監控一個新的redis master（這時通過sentinel masters可以看到多個）

127.0.0.1:20086> SENTINEL MONITOR T2 127.0.0.1 10089 2
OK

②：sentinel remove <master_name> 命令sentinel放棄對某個master的監聽。刪掉上一個加的：

127.0.0.1:20086> sentinel remove T2
OK

③：sentinel set <master_name> <option> <value> 這個命令很像Redis的CONFIG SET命令，用來改變指定master的配置。支持多個<option><value>。

127.0.0.1:20086> sentinel masters
1)     ...
   37) "parallel-syncs"
   38) "1"
127.0.0.1:20086> sentinel set T1 parallel-syncs 2  #格式
OK
127.0.0.1:20086> sentinel masters
1)  ...
   37) "parallel-syncs"
   38) "2"

註意：只要是配置文件中存在的配置項，都可以用SENTINEL SET命令來設置。這個還可以用來設置master的屬性，比如說quorum(票數)，而不需要先刪除master，再重新添加master。

5) 增加或刪除Sentinel

增加一個sentinel很簡單，直接配置好參數開啟一個sentinel即可。添加時最好一個接著一個添加，這樣可以預防網絡隔離帶來的問題，可以每個30秒添加一個sentinel。通過SENTINEL MASTER mastername（T1）中的num-other-sentinels來查看是否成功添加sentinel。刪除一個sentinel稍微復雜一點，sentinel永遠不會刪除一個已經存在過的sentinel，即使它已經與組織失去聯系。遵循如下步驟：

停止所要刪除的sentinel
發送一個SENTINEL RESET * 命令給所有其它的sentinel實例，如果你想要重置指定master上面的sentinel，只需要把*號改為特定的名字，註意，需要一個接一個發，每次發送的間隔不低於30秒。
檢查一下所有的sentinels是否都有一致的當前sentinel數。使用SENTINEL MASTER mastername 來查詢。

首先 kill 掉一個sentinel

127.0.0.1:20086> sentinel master T1
 1) "name"
 2) "T1"
 3) "ip"
 4) "127.0.0.1"
 5) "port"
 6) "10088"
 ...
31) "num-other-sentinels"
32) "2"
...
127.0.0.1:20086> sentinel reset T1  #重新導入或則執行下面的
(integer) 1
127.0.0.1:20086> sentinel reset *   #因為只有監視一個主，所以和上面一致
(integer) 1
127.0.0.1:20086> sentinel masters
1)  1) "name"
    2) "T1"
    3) "ip"
    4) "127.0.0.1"
    5) "port"
    6) "10088"
...
...
   31) "num-other-sentinels"        #sentinel slave的數量
   32) "1"
...

6）刪除舊master或者不可達slave

要永久地刪除掉一個slave(有可能它曾經是個master)，你只需要發送一個SENTINEL RESET master命令給所有的sentinels，它們將會更新列表裏能夠正確地復制master數據的slave。遵循如下步驟：

停止所要刪除的redis slave。
發送一個SENTINEL RESET * 命令給所有其它的sentinel實例，如果你想要重置指定master上面的slave，只需要把*號改為特定的名字。
檢查一下所有的sentinels是否都有一致的當前sentinel數。使用SENTINEL MASTER mastername 來查詢。

首先 kill 掉一個slave

127.0.0.1:20086> sentinel masters
1)  1) "name"
    2) "T1"
    3) "ip"
    4) "127.0.0.1"
    5) "port"
    6) "10088"
...
   29) "num-slaves"                   #多少個slave
   30) "2"
...
127.0.0.1:20086> sentinel reset T1    #重新導入或則執行下面的
(integer) 1
127.0.0.1:20086> sentinel reset *     #和上面一致
(integer) 1
127.0.0.1:20086> sentinel masters
1)  1) "name"
    2) "T1"
    3) "ip"
    4) "127.0.0.1"
    5) "port"
    6) "10088"
...
   29) "num-slaves"                   #多少個slave
   30) "1"
...

註意：要是再次開啟關閉掉的redis slave會繼續當成一個slave，若要徹底關閉slave，則需要修改關閉掉的redis配置文件中最後的：

# Generated by CONFIG REWRITE
slaveof 127.0.0.1 10088        #關閉改參數

7）總結

Redis-Sentinel是Redis官方推薦的高可用性(HA) 解決方案，Redis-sentinel本身也是一個獨立運行的進程，它能監控多個master-slave集群，發現master宕機後能進行自動切換。Sentinel可以監視任意多個主服務器（復用），以及主服務器屬下的從服務器，並在被監視的主服務器下線時，自動執行故障轉移操作。

技術分享

為了防止sentinel的單點故障，可以對sentinel進行集群化，創建多個sentinel。

技術分享

Redis 復制、Sentinel的搭建和原理說明（轉）

單個高可用模式 ogre 出現 password 並不會 shc generated Redis 復制、Sentinel的搭建和原理說明轉自：http://www.cnblogs.com/zhoujinyi/p/5570024.html. 背景： R

Redis 復制、Sentinel的搭建和原理說明（轉）

Redis 復制、Sentinel的搭建和原理說明

Redis 復制、Sentinel的搭建和原理說明（轉）

JVM垃圾回收--年輕代、年老點和持久代（轉）

5.1 vim介紹 5.2 vim顏色顯示和移動光標 5.3 vim一般模式下移動光標 5.4 vim一般模式下復制、剪切和粘貼

四周第二次課（1月3日） 5.1 vim介紹 5.2 vim顏色顯示和移動光標 5.3 vim一般模式下移動光標 5.4 vim一般模式下復制、剪切和粘貼

十七、vim介紹、vim顏色顯示和移動光標、vim一般模式下移動光標、vim一般模式下復制、剪切和粘

Linux centosVMware Vim介紹、vim顏色顯示和移動光標、vim一般模式下移動光標、vim一般模式下復制、剪切和粘貼

DOM怎樣添加、移除、移動、復制、創建和查找節點

Python中復制、深拷貝和淺拷貝的區別

Linux中profile、bashrc、bash_profile之間的區別和聯系（轉）

C++快速入門---傳值、傳值和傳引用（6）

ASP.NET MVC中Section、Partial View 和 Child Action（轉載）

結構體、共用體和列舉型別（一）

C# 16進位制與字串、位元組陣列之間的轉換（轉）

Linux程序管理、執行任務和軟體安裝（筆記）

zookeeper叢集搭建和常用命令（筆記）

使用Kafka、Elasticsearch、Grafana搭建業務監控系統（三）Elasticsearch

【進階3-4期】深度解析bind原理、使用場景及模擬實現（轉）

Java中 ArrayList、Vector和LinkedList 的使用和詳解（轉）

一、 FrameBuffer 原理、實現與應用寫屏（轉）

【ReactJS】一、手把手搭建ReactJS開發環境（Sublime）

Redis 復制、Sentinel的搭建和原理說明（轉）

Redis 復制、Sentinel的搭建和原理說明

相關推薦