1. 程式人生 > >客戶故事 | 北京銀行自動化運維平臺建設之路

客戶故事 | 北京銀行自動化運維平臺建設之路

近年來,國內外金融行業環境複雜多變,技術發展更是迅猛。許多網際網路企業以餘額理財為切入點,基於P2P網貸業務、第三方支付平臺和社會平臺來積累使用者資源,以此拓展其他消費金融業務。更有甚者,發起設立民營銀行。

在此環境下,為了應對市場變化,傳統銀行將更多金融服務類產品投入市場當中。這些新的業務在為銀行創造更高經濟收益與社會效益的同時,也對銀行IT系統的持續、高效能服務能力提出了更高的要求。

我們可以看到隨著銀行業務的快速發展,以及業務模式逐步由網點向電子渠道的轉化,同時金融行業的IT資產、業務系統、輔助系統急速膨脹,系統的複雜性及維護這些系統帶來的運維工作量也同步增長,維護系統的可靠穩定執行僅僅依靠增加人力的方式,其邊際遞減效應愈加明顯。

運維模式層面上,DevOps理念快速推廣,運維模式的變化也給運維部門在管理、組織、流程、技術、工具等方面帶來全新變化。傳統人工為主的運維方式已經完全無法適應當前管理的需要,金融行業的系統運維更迫切地需要向自動化、智慧化模式轉變。

北京銀行所面臨的運維挑戰

北京銀行是一家新型股份制商業銀行。業務涵蓋企業金融服務、代理保險、國際結算等,在全球範圍內為個人和公司客戶提供服務。面對愈發廣闊的業務型別、服務地域以及物件,北京銀行的資料中心運維規模近年來在不斷地擴大。

分析瞭解到,北京銀行此前的運維操作單純依靠專業技術人員完成,運維模式處於較為傳統單一的階段。伴隨著其日益複雜的辦公環境和業務運轉需求,已有的運維模式正面對嚴峻的衝擊與挑戰,具體表現在以下幾個方面:

網路安全受到威脅

銀行的運維操作大部分依賴人工,導致操作風險與人員流失率加大,資訊更容易洩露。與此同時,人為操作失誤也更容易造成許多安全事故,並且難以從根本上進行良好的風險把控與故障排查。

資源利用率低,成本過高

對於那些依賴多跳網路將計算和儲存連線起來的傳統架構來說,不斷增加的虛擬機器也造成了巨大的成本和管理壓力。在此基礎上,銀行技術人員做了大量重複低效甚至無效的工作,但人為的操作往往很難滿足此前複雜豐富的運維需求。與此同時,業務拓展、上線週期太長等效率過低的問題也漸漸出現。

運維工作缺乏自動化工具的輔助

只有在運維過程中構建一個統一標準,實現人員、流程、工具的標準化,才能在最大的程度上實現運維的高效能、自動化。

運維管理呈現出的“雙態性”

現階段所要解決的當務之急是如何處理好金融行業的“求穩性”屬性,與日益繁瑣的業務需求、愈發沉重的運維壓力下呈現出的“求敏性”之間的平衡,這種情況下的“雙態性”該如何良性共存。

| 北京銀行自動化運維平臺建設綜述

廣通軟體基於優雲新一代運維PaaS平臺,結合北京銀行自身的運維特點以及需求推出了全新的運維自動化解決方案。

其產品採用”平臺+場景“的設計思路,打造出一個通用的自動化作業平臺,然後基於該平臺再構建面向基礎資源、應用和業務的自動化運維場景和針對性APP。

·自動化作業平臺·

本次專案從管理範圍及應用場景2個維度進行建設。

1、從管理範圍維度,本次專案實現了:

對資料中心物理機、虛擬機器、網路及安全裝置等服務節點進行納管;

應用、作業系統、資料庫、網路等各層面資源進行巡檢;

納管服務節點配置資訊的自動定時採集功能與對比;

作業系統、資料庫、中介軟體等資源進行合規檢查操作;

作業系統、資料庫等補丁包的更新。

·以業務場景為導向的自動化交付·

2、從應用場景維度,本次專案實現了:

自動化巡檢

以業務系統維度對該系統所涉及的應用、作業系統、資料庫、網路等各層面資源進行巡檢。

自動化配置管理

實現納管伺服器配置資訊的自動定時採集功能,並將採集資訊作為資料來源,自動採集的配置資訊可以直接發現配置差異,發現後可與現有ITIL中的CMDB配置資訊進行比對,並對對比出的差異項進行標記,通過工單來通知相關責任人員進行處理,實現配置項資訊同步。

自動化合規檢驗

實現對作業系統、資料庫、中介軟體等資源進行合規檢查操作。將符合規範的合規檢查模板轉化為檢查項,通過週期性地自動檢查或人工觸發的方式,能夠展現所有伺服器的合規情況,並定期生成合規檢查報告。

通過制定合規標準,定期對現有配置進行審計,並可通過流程觸發的方式(如派發ITIL工單)進行修復和加固。

自動化軟體與補丁安裝

實現資料庫、中介軟體等軟體的自動安裝以及叢集架構的搭建;實現作業系統、資料庫等補丁包的自動化批量安裝、更新。

自動化定時任務

實現以業務系統維度,將已定製好的流程或指令碼,按照設定的時間要求進行自動化處理,對定時任務的執行情況進行展示,並對執行結果進行記錄。

| 自動化運維平臺專案收益

整體來看,自動化運維平臺的構建很大意義上提升了運維的效率,並減少了因為人工和流程操作而引起的運維故障的可能。

通過實現伺服器和網路裝置的自動化巡檢及合規性檢查、軟體的自動化安裝、配置資訊的自動化獲取、運維操作的服務化封裝、流程任務的視覺化編排等功能需求,實現了自動化運維平臺的搭建,為北京銀行的運維模式帶來了巨大的轉變。同時,平臺也具備可擴充套件性,便於後期適應各種複雜自動化運維場景。

·專案設計效果參考組圖·

機器自動執行重複操作,運維安全得到保障

採用自動化手段,將大量的標準、重複的操作以機器自動執行的方式,顯著提供各類事物的操作效率,降低人為操作風險。

自動化的操作前移及故障自愈

通過操作前移和故障自愈,把原來需要二線處理的工作前移到一線值班處理,將二線管理員從大量重複性的工作中解放出來,可以把精力用在風險分析、系統優化等更有創造性的工作上面去。

協同辦公,各部門溝通效率得到提升

通過社交化的協同工作模式,在保證合規要求的前提下(提供溝通和操作留痕),顯著提升部門內及部門間的溝通效率。

通過DevOps持續實踐,業務響應更加敏捷

平臺很好的支援應用持續交付運維模式,通過DevOps持續實踐,提升業務應用系統的迭代速度,為業務提速提供有效支撐。

| 自動化到智慧化運維探索——“四步走”戰略

凡事預則立。北京銀行的自動化運維建設也應遵循“總體規劃與分步實施”的原則。從自動化運維建設整體出發,制定自動化運維實施藍圖,在此藍圖指導下,遵循“近期、中期、遠期”的建設路徑,結合實際情況,分階段、分步驟執行建設任務。我們將其概括為“四步走”戰略,並且分別羅列制定了不同時期所要完成的目標。

第一階段:平臺基礎功能搭建

進行精準的自動化運維平臺需求分析,完成自動化巡檢、自動化配置管理、自動化合規檢查、自動化軟體與補丁安裝元件建設等。目前,該階段已經順利完成。

第二階段:平臺能力逐步完善

第一階段所搭建的自動化運維平臺已初步具備了基礎的自動化運維效能,但仍有許多功能需要完善。第二階段的目標主要有:完成試點系統的指令碼開發;發現產品問題並及時優化;橫向擴充套件納管系統範圍,縱向延伸自動化功能等。該階段已經於2018年上半年順利完成。

第三階段:平臺功能拓展

該階段側重點在於自動化運維繫統的應急處理功能完善以及針對自動化運維平臺制定相應的流程和要求。該階段目前正在進行當中,預計2018年底完成。

第四階段:運維轉型——AIOps智慧化

實現通過大資料平臺,能夠接入海量IT資料以及利用人工智慧和機器學習演算法進行分析、學習、預測和干擾的功能。

目前,北京銀行運維建設專案已經到達“四步走”戰略規劃的第三階段末期,完成了工具化——服務化的運維模式轉變,基本實現並完善了運維自動化平臺的功能,下一階段所面臨的挑戰就是智慧化運維的探索與實踐。

| 未來AIOps智慧運維平臺的思考

經歷了指令碼化——工具化——自動化的運維模式改革,接下來北京銀行所要面對的時代方向便是智慧化運維。在雲端計算、微服務、人工智慧等新技術流行的基礎上,智慧化運維漸漸成為趨勢。

但基於目前業內智慧化運維仍處於初步探索階段,北京銀行的智慧化運維建設也會面臨一些諸如安全、運維人員思維轉變、海量資料管理與機器學習挑戰以及智慧化運維標準化等問題。針對這些考慮,廣通軟體攜手北京銀行共同探討出一系列關於智慧化運維演進的思路。

深入構建自動化場景:在目前運維的基礎上,深入完善構建其自動化場景。具體體現在:構建故障處理、備份管理、效能調優、應用部署、彈性擴容、容災切換、雲化管理、配置變更、作業跑批等其他場景。

整合流程平臺:這方面希望可以實現ITIL自動化任務排程整合,構建事件管理流程和變更管理流程。

運維平臺的智慧化AIOps演進:北京銀行的AIOps演進將以機器學習為手段,通過分析歷史資料,實現預測分析、故障自動診斷、自動修復、資源彈性伸縮等業務功能,不斷完善運維平臺的能力,使其有如靈活運轉的最強大腦,構建整合化的AIOps智慧化平臺。

| 寫在最後

從長遠發展來看北京銀行的智慧化運維之路,仍應是遵守“安全優先、穩定第一”的原則,這是基於金融行業所特有的安全管控與風險控制等特點所考慮的。安全穩定原則應當貫穿整個智慧化轉型的過程。同時,北京銀行的智慧化運維建設應當結合自身企業文化、組織架構特色,以此實現人工、自動化、智慧化的良性並存運維模式。

該模式下,運維人員將經歷從圍繞系統工作逐漸過渡到圍繞資料和自動化工具平臺開展工作的轉變,並通過智慧化運維繫統進行資料分析和輔助決策。以上是我們對北京銀行自動化和智慧化運維工作的思考和實踐。希望在不久的將來,我們與客戶攜手共進,能夠一起實現智慧化運維的美好藍圖!