如何從零搭建一個自動化運維體系
一、建設自動化運維體系的原因
第一個是遊戲的需求。它表現為三個方面:
- 一是遊戲數量多,我司現在運營的遊戲多達近百款。
- 二是遊戲架構複雜。遊戲公司和一般的網際網路公司有一個很大的區別,就是遊戲的來源可能有很多,比如有國外的、國內的,有大廠商的、小廠商的;每個遊戲的架構可能不一樣,有的是分割槽制的,有的是集中制的,各種各樣的需求。
- 三是作業系統種類多,這與剛才的情況類似,遊戲開發者的背景與程式設計喜好不一樣,會有Windows、Linux等。
第二個是在硬體環境方面,主要表現為伺服器數量多、伺服器型號多。
因為公司從建立到現在有十幾年的時間了,在這個過程中分批、分期採購的伺服器幾乎橫跨各大OEM廠商的各大產品線,型號多而雜。
最後是人的因素。我們在建設自動化運維體系過程中,有一個比較重要的考慮點是人的因素。
如果大家的技術能力都很強,很多時候一個人可以完成所有工作,可能也就不需要自動化運維體系了。
正是因為每個運維人員的能力不一樣,技術水平參差不齊,甚至是運維習慣和工具也不一樣,導致我們必須要建立一套規範的自動化運維體系,來提升工作效率。
二、建設自動化運維體系的目標
再看一下建設這套自動化運維體系的目標,也就是說我們的原則是什麼?
筆者將自動化運維體系的建設目標總結為四個詞。
- 第一個是“完備”,這個系統要能涵蓋所有的運維需求。
- 第二個是“簡潔”,簡單好用。如果系統的操作流程、操作介面、設計思想都比較複雜,運維人員的學習成本就會很高,使用的效果是會打折扣的,系統的能力、發揮的效率也會因此打折扣。
- 第三個是“高效”,特別是在批量處理或者執行特定任務時,我們希望系統能夠及時給使用者反饋。
- 第四個是“安全”,如果一個系統不安全,可能導致很快就被黑客接管了。所以安全也是重要的因素。
三、自動化運維體系的結構和運作方式
3.1、自動化安裝系統
說到自動化安裝,大家可能並不陌生,“兩多兩少”,型號多、作業系統多,但是人少,可用時間也比較少。
整個流程採用通用的框架,首先由PXE啟動,選擇需要安裝的作業系統型別(安裝Windows或者Linux),然後根據Windows系統自動識別出需要安裝的驅動。伺服器交付使用者之前,會進行基本的安全設定,例如防火牆設定以及關閉Windows共享,這在一定程度上提高了安全性,也減少了需要人工做的一些操作。如圖所示:
自動安裝流程圖
3.2、自動化運維平臺
當伺服器由自動化安裝系統安裝完成以後,就會被自動化運維平臺接管。自動化運維平臺是運維人員的作業平臺,它主要解決的問題就是因伺服器、作業系統異構而且數量特別多而帶來的管理問題。作業系統是五花八門的,我們在設計系統過程中考慮了以下幾個因素:
把整個系統的使用者介面設計成基於瀏覽器的架構。運維工程師無論何時何地都可以登入管理系統進行運維操作,這樣的話就比較方便。由Octopod伺服器對被操作的機器釋出指令。
統一管理異構伺服器。大家以前可能對Windows深惡痛絕,其實Windows也可以管得很好。我們使用開源的SSH方式管理Windows,這樣就可以對系統進行批量的補丁更新,還可以做批量的密碼管理和操作。
充分利用現有協議和工具。這個平臺的特點是所有的系統使用SSH管理,而不是自己開發一些Agent,這也體現了自動化運維的觀點。
很多時候我們沒必要重新造輪子,即使自己造出一套客戶端的方法,大部分時候也並沒有在生產環境裡得到嚴格的驗證。
而SSH協議本身已經存在很多年了,而且已經在我司使用了很多年,該出的問題已經出了,相對於造輪子,使用SSH更加穩定,更經得起考驗,使用起來更方便。
3.3、自動化安檢系統
下一個系統是自動化安檢系統。由於我們的子系統比較多,業務也比較多,怎樣設計一套系統去保障它們的安全呢?這裡主要是兩個系統:自動化安檢平臺和伺服器端。
先來看自動化安檢平臺。遊戲公司和一般的網際網路公司有一個區別,就是前者需要給玩家傳送很多的客戶端(特別是有的客戶端比較大),或者補丁檔案,去更新、下載和安裝。
如果這些檔案裡面出現病毒和木馬,將是一件很糟糕的事情,甚至會對業務和公司的聲譽造成惡劣影響。當這些檔案被髮到玩家電腦上之前,必須經過病毒檢測系統檢測,確保它沒有被注入相應的病毒程式碼。
再來看伺服器端,主要是通過安全掃描架構來保障安全。
安全並不是一蹴而就,一勞永逸的。如果不對系統持續地檢查、檢測、探測,那麼你的一些誤操作會導致系統暴露在網際網路上,或者是暴露在惡意攻擊者的眼皮之下。
通過一種主動、自發的安全掃描架構對所有伺服器進行安全掃描,就能在很大程度上規避這樣的問題。
舉一個例子,去年我們遇到過一個情況,某款交換機ACL達到一定的數量的時候,就完全失效了。
如果沒有相關的配套機制去檢查和檢測,那麼你的伺服器、你認為保護得很好的埠或者是敏感的IP可能已經暴露。所以,通過這種主動的探測可以減少很多系統的或者是人為的安全問題。
3.4、自動化客戶端更新系統
遊戲是有周期性的,特別是在遊戲釋出當天或者有版本更新的時候,這時候玩家活躍度很高,下載行為也是比較多的,但是平時的更新和下載頻寬可能並不大,這也是遊戲很顯著的特點。
這個特點對於我們構建這樣一個分發系統提出了很大的挑戰。
第一個挑戰就是在高峰時遊戲產生的頻寬可能達到數百GB。
第二是很多小運營商或者中小規模的運營商會有一些快取機制,這個快取機制如果處理得不好,會對業務造成影響,也就是非法快取的問題。
第三是關於DNS排程的問題。
DNS排程本身是基於玩家本身的Local DNS的機制解析的,會有排程不準確的問題。
第四是DNS汙染,或者是DNS TTL的機制導致排程不那麼靈敏和準確。針對這些問題,我們有下面兩套系統來解決。
第一套是Autopatch系統,它解決的是大檔案更新的下載問題,再就是多家CDN廠商流量排程。其操作流程也比較簡單,由運維人員上傳檔案、安檢,然後同步到CDN,由CDN分發到相關邊緣節點,最後解壓檔案。
剛才說到遊戲的週期性特點,就是平時頻寬不是很大,但是在某個節點的時候,或者是重大活動的時候,頻寬比較大。
如果自己構建一套CDN系統,可能不是很划算,所以我們引入國內多家比較大型的CDN廠商排程資源。我們通過302的方法排程,而不是把域名給其中一家或幾家。
因為直接使用CNAME的話很難按比例排程,特別是頻寬大的時候,一家CDN廠商解決不了,或者是一家發生區域性故障,需要快速切除。
而通過集中的排程系統就可以實現按比例排程的功能。使用者發過來的所有請求,首先要在我們這邊進行排程,但是本身並不產生直接下載頻寬,而是通過相關演算法,按比例和區域排程給第三方的CDN廠商,然後玩家實際是由第三方CDN廠商節點去下載客戶端的。
第二套是Dorado系統。剛剛講到小運營商或者某些運營商的非法快取機制會對業務造成影響,那麼對於某些關鍵的檔案,如果快取的是一箇舊版本,可能會造成很大的問題。比如我們的區服列表,如果我們伺服器端增加了新的區服,在客戶端沒有顯現出來,就導致玩家沒有辦法進入到新的區服去玩。
針對這些問題,我們設計了內部代號為Dorado的系統,因為這些檔案本身是比較小的,而且數量也不是特別多,但是需要用HTTPS加密,通過加密規避小運營商的快取問題。
所以我們對於這些關鍵檔案,全部有自有節點,在節點上支援HTTPS加密方法,規避小運營商快取帶來的一些問題。
3.5、自動化伺服器端更新系統
我們採用的伺服器端更新模式也是一種比較傳統的類似於CDN的方式,是由目標伺服器通過快取節點到中央節點下載,由快取節點快取控制,這樣可以減少網間傳輸的資料量以及提高效率。
我們在設計這套系統的時候,也想過用P2P去做。大家想P2P是很炫,又節省頻寬,但是用於生產環境中大檔案分發的時候會有幾個問題。
一是安全控制的問題,很難讓這些伺服器之間又能傳資料又能進行安全埠的保護。
二是在P2P裡做流量控制或者流量限定也是一個挑戰。所以最終我們採用了一個看起來比較簡單的架構。
3.6、自動化資料分析系統
說到客戶端更新,其實更新的效果如何,玩家到底有沒有安裝成功或者進入遊戲,很多時候我們也很茫然,只能看日誌。
但是日誌裡面的很多資訊是不完善和不完整的。下載客戶端的時候,如果看HTTP的日誌的話,裡面是206的程式碼,很難計算出玩家到底完整下載了多少客戶端,甚至他有沒有下載下來,校驗結果是否正確,也很難知道。所以我們最終設計了一個自動化資料分析系統,目標就是分析從使用者開始下載到他登入遊戲,資料到底是怎樣轉化的。
最理想的一種情況是使用者下載客戶端以後,就進入了遊戲,但這是一個理想情況。
很多時候,比如因為網路不好,導致使用者最終沒有下載成功,或者是因為賬號的一些問題,使用者最終沒有登入到遊戲裡面去。
所以,展現出來的資料就是一個漏斗狀。我們的目標就是讓最終登入的使用者數接近於起初下載客戶端的使用者數。
我們來看一下系統的架構。首先由玩家這邊的下載器或者是安裝客戶端,遊戲客戶端裡面整合一些SDK,對於任何一個關鍵點,比如“下載”按鈕或者“終止”按鈕的資料都上報,當然這裡面不會涉及敏感資訊。上報以後會有Tomcat叢集,叢集處理以後會將資料寫入MongoDB。
看一下這個遊戲在引導過程中有什麼問題,左邊的這一列它分為三個檔案,有一個是3MB,有兩個是2G多的檔案,其實大家可以想像一下。很多時候玩家看到小的檔案就把小的檔案直接下載安裝了,但是實際上並不完整。這一點也告訴我們,其實很多時候在運營或者是業務方面,在引導方面也是要比較合理才能去規避掉一些問題。
3.7、自動化資料備份系統
我們第一個版本的備份系統,它的設計和實現是比較簡單的:不同的機房會有一臺FTP伺服器,本機房的資料寫入FTP伺服器,然後寫入磁帶,但是這樣就導致磁帶是分散的,沒有集中存放的地方;另外,基於FTP的上傳會有頻寬甚至有延遲的要求。
後來我們設計了一個集中的備份系統。它主要解決了以下兩個問題。
第一是簡化配置。我們所有機房的全部配置,用一個負載均衡器的IP就可以了,當客戶端需要上傳檔案時,通過負載均衡器獲取實際上傳的地址,然後上傳檔案,由左邊第二個框裡面的伺服器進行接收,並且根據MD5值進行校驗,如果校驗沒有問題,就轉到Hadoop的HDFS叢集裡面去。目前這個叢集有數十PB的規模,每天上傳量有幾個TB。
第二是提高傳輸效率和成功率。大家會想一個問題,在中國,網路環境十分複雜,運營商之間存在隔閡甚至是壁壘,導致網路不穩定,丟包和延遲的問題是怎樣解決的呢?如果基於TCP傳輸大檔案,理論上存在單個連線上頻寬延時積的限制。
這裡我們創新的是,客戶端的上傳採用UDP協議,UDP本身沒有任何控制,說白了就是客戶端可以任意、使勁地發文件。最終會由伺服器端檢查你收到了哪些檔案片段,然後通知客戶端補傳一些沒上傳的片段就可以了。基於這種方式能規避很多因為網路抖動或網路延遲比較大而導致的問題。當然,在客戶端做流量控制也是可以的。在遇到問題的時候多想想,或許能找到不走尋常路的解決方案。
3.8、自動化監控報警系統
再看一下游戲的自動化監控報警系統(如下圖所示)。遊戲的架構中有遊戲客戶端、伺服器端、網路鏈路,所以必須要有比較完整的體系進行全方位、立體式的監控,才能保證在業務發生問題之前進行預警,或者在發生問題時報警。
對於機房鏈路,有IDC(Internet Data Center)的網路質量監控;在伺服器、網路裝置和硬體方面,我們會做伺服器的健康檢查、效能監控,以及網路裝置和流量監控;
在系統程式方面,我們會收集和分析系統日誌;在遊戲伺服器端應用方面,有伺服器端的程式監控;在客戶端方面,我們會收集植入的SDK做下載更新後的效果,以及收集崩潰的資料。
作為運維人員,我們考慮問題或者設計架構的時候,視角不能僅侷限於一個技術方面,或者選用多炫酷、多麼牛的技術,要想想技術在業務方面的架構,或者能否通過業務指標監控我們的運維能力與運維繫統。
在遊戲裡,有一個很重要的指標就是線上人數,通過監控線上人數這個業務指標,就可以知道系統是否工作正常,是不是有漏報、誤報的情況,因為很多時候任何一個環節出了問題,最終都會體現在業務上,在產生價值的資料上。
所以我們有一套監控線上人數的系統,每個遊戲上線之前會接入這個系統,把線上的人數實時彙集到系統裡面。如果發生異常的抖動,系統中都會有所顯示,也就可以知道是否發生了問題。
以上講的是一個框架,下面我們看一下細節,怎樣做伺服器的監控。首先由運維工程師在監控策略平臺配置監控策略,監控策略平臺會將這些資料格式化成相關格式,然後推送給自動化運維平臺。
自動化運維平臺會判斷是這些資料是外部來的,還是遠端檢測到的;是網路模擬的,還是本地的監控得到的。
比如流量、本地程序的監控、本地日誌的監控,會分別推給遠端探測伺服器,或者遊戲伺服器本身,然後由它們上報資料。資料上報以後,根據運維工程師配置的閾值,會觸發相關的報警,然後通知運維工程師進行相關處理。因為雖然遊戲多種多樣,作業系統五花八門,但是總有一些大家可以公用的東西,比如監控的模板或者監控的策略,我們對伺服器的東西也進行了整合彙總。