1. 程式人生 > >監控平臺實施方案

監控平臺實施方案

建立 重建 aid 數量 roc 兩個 另一個 目標 ddr

撰寫:田逸([email protected]

基本目標

? 監控有效性:監控能正確反應系統、應用運行狀態,發生故障能及時告警;對重要對象進行監控,能定位到問題即可;不面面俱到,增加負擔及復雜度。
? 平臺可用性:監控平臺本身也可能存在故障的風險,因此,需要建立起一套可用性保證機制。一是在硬件層面保證部分硬件失效時,監控服務不受影響;二是萬一系統崩潰,能夠重建平臺並進行數據恢復。
? 信息安全性:網絡隔離及用戶授權。

方案設計

? 監控架構
監控分服務器端及被監控端,其中服務器端獨立部署,而被監控端根據監控要求,有的監控項需要在被監控端安裝插件,而有的不需要。按這個需求來分類,監控主機存活、服務端口或者web的url,不需要在安裝插件;而諸如監控系統負載、磁盤空間使用、進程數等,屬於主機資源監控的類型,則需要安裝插件。

技術分享圖片
? 平臺可用性架構
分兩個層面,一個是硬件冗余,另一個是備份恢復機制。
(1) 硬件冗余:單臺物理主機,保證電源及硬盤冗余及容錯,降低down機幾率。同時配置相同配置的物理主機,作為備份或者備用機。
(2) 應用層面底層采用虛擬化,監控平臺運行與虛擬機,並自動對虛擬機進行異地(機)備份。系統崩潰時,重建系統,用虛擬機備份快速恢復數據。
技術分享圖片

技術實現

? 對象監控實現
監控平臺安裝在虛擬機上,安裝好所需各種組建(web、數據庫、php等),能通過web界面進行各種管理操作。監控系統采用業內知名的nagios,久經考驗,且不存在法律及授權風險。在需要監控主機資源的系統上,安裝與nagios配套的插件nrpe,舍棄繁復的snmp,即提高了安全性,又降低了資源的耗費。

? 可用性實現
底層用開源私有雲工具proxmox虛擬化,在其上創建兩個虛擬機,一個用於安裝nagios監控,另一個用於安裝nfs共享磁盤。兩臺物理主機,一個上邊運行監控系統,而另一臺共享出nfs磁盤空間,被掛接到監控系統上,做監控系統的虛擬機自動備份使用。
? 監控系統總覽
主要項目包括:主機、主機組、服務、服務組、聯系人、聯系組、監控狀態等等。

技術分享圖片

實施步驟

? 物理機上架,通電,連接網絡線纜;開機,硬盤做好raid。
? 安裝底層虛擬化環境,並保證網絡連通。
? 配置虛擬機環境,並創建所需要的虛擬機。
? 安裝虛擬機操作系統。
? 部署nagios監控、部署nfs共享存儲。
? 被監控端安裝插件,配置並啟動守護進行。

? 添加監控項,並使之使之生效。
? 被監控端人為模擬故障,檢查監控是否有效(故障告警、恢復)

工具列表

? 監控系統centreon2.8(封裝過的nagios),從centreon官方下載,無需授權。
? 監控系統插件nagios-plugin,從nagios官方網站下載。
? 監控遠程插件NRPE(nagios remote plugin executor),從nagios官方網站下載。
? 共享存儲nfs,linux自帶。
? 虛擬化管理平臺proxmox,從其官方網站下載。
? 其它工具如apache、php、mysql等,從網上下載。

實施要求

? 監控服務器能訪問到被監控端,無需通過第三方轉發;
? 監控服務器能訪問公網,以便能下載所需的軟件和依賴,否則無法進行安裝;
? 如需要從公網操作監控平臺,最好可以分配公網ip;
? 被監控端需要開啟tcp 5666端口,不能被防火墻所阻止;
? 需少數系統臨時模擬故障發生,一遍測試監控的有效性;
? 需提供使用此監控人員的名單,以便進行合理授權;
? 為便於配置和後期維護,強烈建議開通遠程登錄權限(如***授權),這樣能大大提高效率;
? 分配足夠可使用的ip地址。

註意事項

? 部署監控服務器端時,確保ip設置唯一,不要與其它主機的ip產生沖突;
? 被監控端部署NRPE時,需征得相關人員同意;防火墻開放端口(如有啟用)需得到支持後再往下進行;同時,不能因為安裝引起業務中斷。

附錄:服務器配置要求
名稱 規格型號 數量 備註
Cpu 誌強2600系列 2顆 2臺機器共四顆
內存 Ddr4 16G 64G 共8根
硬盤 Sas 15000轉 600G 至少3塊 共6塊或者更多
電源 雙電源 1 4個

更加體系化和實例化的proxmox超融合私有雲實踐系列文章,請移步本人專欄“人人都能玩的私有雲神器-proxmox”,猛戳此處,片刻直達!

監控平臺實施方案