1. 程式人生 > >高可用-軟件heartbeat的入門介紹

高可用-軟件heartbeat的入門介紹

cluster 並且 安裝與配置 如果 所有權 系統日誌 kill 無縫切換 文件系統

註:參考互聯網整理.

一、簡介
Linux-HA的全稱是High-Availability Linux,它是一個開源項目,這個開源項目的目標是:通過社區開發者的共同努力,提供一個增強linux可靠性(reliability)、可用性(availability)和可服務性(serviceability)(RAS)的群集解決方案。其中Heartbeat就是Linux-HA項目中的一個組件,也是目前開源HA項目中最成功的一個例子,它提供了所有 HA 軟件所需要的基本功能,比如心跳檢測和資源接管、監測群集中的系統服務、在群集中的節點間轉移共享 IP 地址的所有者等,自1999年開始到現在,Heartbeat在行業內得到了廣泛的應用,也發行了很多的版本,可以從Linux-HA的官方網站

www.linux-ha.org下載到Heartbeat的最新版本。
二、術語
1)節點(node)
運行heartbeat進程的一個獨立主機,稱為節點,節點是HA的核心組成部分,每個節點上運行著操作系統和heartbeat軟件服務,在heartbeat集群中,節點有主次之分,分別稱為主節點和備用/備份節點,每個節點擁有唯一的主機名,並且擁有屬於自己的一組資源,例如,磁盤、文件系統、網絡地址和應用服務等。主節點上一般運行著一個或多個應用服務。而備用節點一般處於監控狀態。

2)資源(resource)
資源是一個節點可以控制的實體,並且當節點發生故障時,這些資源能夠被其它節點接管,heartbeat中,可以當做資源的實體有:

(1)磁盤分區、文件系統

(2)IP地址

(3)應用程序服務

(4)NFS文件系統

3)事件(event)
也就是集群中可能發生的事情,例如節點系統故障、網絡連通故障、網卡故障、應用程序故障等。這些事件都會導致節點的資源發生轉移,HA的測試也是基於這些事件來進行的。

4)動作(action)
事件發生時HA的響應方式,動作是由shell腳步控制的,例如,當某個節點發生故障後,備份節點將通過事先設定好的執行腳本進行服務的關閉或啟動。進而接管故障節點的資源。

三、組成
1)Heartbeat的組成
Heartbeat提供了高可用集群最基本的功能,例如,節點間的內部通信方式、集群合作管理機制、監控工具和失效切換功能等等,目前的最新版本是Heartbeat2.x,這裏的講述也是以Heartbeat2.x為主,下面介紹Heartbeat2.0的內部組成,主要分為以下幾大部分:
(1)heartbeat: 節點間通信檢測模塊

(2)ha-logd: 集群事件日誌服務

(3)CCM(Consensus Cluster Membership):集群成員一致性管理模塊

(4)LRM (Local Resource Manager):本地資源管理模塊

(5)Stonith Daemon: 使出現問題的節點從集群環境中脫離

(6)CRM(Cluster resource management):集群資源管理模塊

(7)Cluster policy engine: 集群策略引擎

(8)Cluster transition engine:集群轉移引擎

2)插件
Heartbeat僅僅是個HA軟件,它僅能完成心跳監控和資源接管,不會監視它控制的資源或應用程序,要監控資源和應用程序是否運行正常,必須使用第三方的插件,例如ipfail、Mon、Ldirector等。Heartbeat自身包含了幾個插件,分別是ipfail、Stonith和Ldirectord,介紹如下:
(1) ipfail的功能直接包含在Heartbeat裏面,主要用於檢測網絡故障,並作出合理的反應,為了實現這個功能,ipfail使用ping節點或者ping節點組來檢測網絡連接是否出現故障,從而及時的做出轉移措施。

(2)Stonith插件可以在一個沒有響應的節點恢復後,合理接管集群服務資源,防止數據沖突,當一個節點失效後,會從集群中刪除,如果不使用Stonith插件,那麽失效的節點可能會導致集群服務在多於一個節點運行,從而造成數據沖突甚至是系統崩潰。因此,使用Stonith插件可以保證共享存儲環境中的數據完整性。

(3)Ldirector是一個監控集群服務節點運行狀態的插件。Ldirector如果監控到集群節點中某個服務出現故障,就屏蔽此節點的對外連接功能同時將後續請求轉移到正常的節點提供服務,這個插件經常用在LVS負載均衡集群中.
3)watchdog
對於操作系統自身出現的問題,Heartbeat也無法監控,如果主節點操作系統掛起,一方面可能導致服務中斷,另一方面由於主節點資源無法釋放,而備份節點卻接管了主節點的資源,此時就發生了兩個節點同時爭用一個資源的狀況。
針對這個問題,就需要在linux內核中啟用一個叫watchdog的模塊,watchdog是一個Linux內核模塊,它通過定時向/dev/watchdog設備文件執行寫操作,從而確定系統是否正常運行,如果watchdog認為內核掛起,就會重新啟動系統,進而釋放節點資源。在linux中完成watchdog功能的軟件叫softdog,softdog維護一個內部計時器此計時器在一個進程寫入/dev/watchdog設備文件時更新,如果softdog沒有看到進程寫入/dev/watchdog文件,就認為內核可能出了故障。watchdog超時周期默認是一分鐘,可以通過將watchdog集成到Heartbeat中,從而通過Heartbeat來監控系統是否正常運行。
四、原理
在Heartbeat集群中,最核心的是heartbeat模塊的心跳監測部分和集群資源管理模塊的資源接管部分,心跳監測一般由串行接口通過串口線來實現,兩個節點之間通過串口線相互發送報文來告訴對方自己當前的狀態,如果在指定的時間內未受到對方發送的報文,那麽就認為對方失效,這時資源接管模塊將啟動,用來接管運行在對方主機上的資源或者服務.
五、安裝與配置

http://book.51cto.com/art/200912/168033.htm

六、測試
如何才能得知HA集群是否正常工作,模擬環境測試是個不錯的方法。在把Heartbeat高可用性集群放到生產環境中之前,需要做如下5個步驟的測試,從而確定HA是否正常工作。

1)正常關閉和重啟主節點的Heartbeat
首先在主節點node1上執行"service heartbeat stop"正常關閉主節點的Heartbeat進程,此時通過ifconfig命令查看主節點網卡信息。正常情況下,應該可以看到主節點已經釋放了集群的服務IP地址,同時也釋放了掛載的共享磁盤分區。然後查看備份節點,現在備份節點已經接管了集群的服務IP,同時也自動掛載上了共享的磁盤分區。在這個過程中,使用ping命令對集群服務IP進行測試。可以看到,集群IP一致處於可通狀態,並沒有任何延時和阻塞現象,也就是說在正常關閉主節點的情況下,主備節點的切換是無縫的,HA對外提供的服務也可以不間斷運行。接著,將主節點Heartbeat正常啟動。Heartbeat啟動後,備份節點將自動釋放集群服務IP,同時卸載共享磁盤分區,而主節點將再次接管集群服務IP和掛載共享磁盤分區。其實備份節點釋放資源與主節點綁定資源是同步進行的,因而,這個過程也是一個無縫切換。

2)在主節點上拔去網線
拔去主節點連接公共網絡的網線後,Heartbeat插件ipfail通過ping測試可以立刻檢測到網絡連接失敗,接著自動釋放資源。而就在此時,備用節點的ipfail插件也會檢測到主節點出現網絡故障,在等待主節點釋放資源完畢後,備用節點馬上接管了集群資源,從而保證了網絡服務不間斷持續運行。
同理,當主節點網絡恢復正常時,由於設置了"auto_failback on"選項,集群資源將自動從備用節點切會主節點。

3)在主節點上拔去電源線
在主節點拔去電源後,備用節點的Heartbeat進程會立刻收到主節點已經shutdown的消息。如果在集群上配置了Stonith設備,那麽備用節點將會把電源關閉或者復位到主節點。當Stonith設備完成所有操作時,備份節點才能拿到接管主節點資源的所有權,從而接管主節點的資源。

4)切斷主節點的所有網絡連接
在主節點上斷開心跳線後,主備節點都會在日誌中輸出"eth1 dead"的信息,但是不會引起節點間的資源切換。如果再次拔掉主節點連接公共網絡的網線,就會發生主備節點資源切換,資源從主節點轉移到備用節點。此時,連上主節點的心跳線,觀察系統日誌,可以看到,備用節點的Heartbeat進程將會重新啟動,進而再次控制集群資源。最後,連上主節點的對外網線,集群資源再次從備用節點轉移到主節點。這就是整個切換過程。
5)在主節點上非正常關閉Heartbeat守護進程
在主節點上可通過"killall -9 heartbeat"命令關閉Heartbeat進程。由於是非法關閉Heartbeat進程,因此Heartbeat所控制的資源並沒有釋放。備份節點在很短一段時間沒有收到主節點的響應後,就會認為主節點出現故障,進而接管主節點資源。在這種情況下,就出現了資源爭用情況,兩個節點都占用一個資源,造成數據沖突。針對這個情況,可以通過Linux提供的內核監控模塊watchdog來解決這個問題,將watchdog集成到Heartbeat中。如果Heartbeat異常終止,或者系統出現故障,watchdog都會自動重啟系統,從而釋放集群資源,避免了數據沖突的發生。

高可用-軟件heartbeat的入門介紹