1. 程式人生 > >自動化運維時代,我們該如何是好?

自動化運維時代,我們該如何是好?

關注嘉為科技,獲取運維新知

寫這篇文章的時候,時間是2018年10月31日,還有兩個月就將步入2019年,想一想,都很激動呢。

這個時間點跟我們今天要談論的主題有啥關係嗎?

並沒有。

只是單純感慨下時間真的過得快鴨。(嚴肅臉)

言歸正傳,進入2018年以來,IT運維領域最熱門的話題可能就是運維自動化,並且這種熱門的趨勢按照目前的發展態勢,應該會繼續擴充套件到2019年、2020年……

各行各業的中大型企業的IT部門,幾乎都在考慮著手進行IT運維管理的變革和向自動化運維的轉型。

鑑於此,作為一家在IT服務領域深耕18年、在傳統IT運維管理層面有著深厚沉澱和積累、並與騰訊藍鯨聯合開拓自動化運維市場已達2年的企業,嘉為科技以“研運一體,資料驅動,讓運維走向運營”為主題,在北上廣深進行了四場關於“自動化運維及運營”的分享活動,來介紹接下來的自動化運維時代對於企業的IT管理究竟意味著什麼,以及在這場大潮中,企業的IT應該如何做,才能確保能夠緊跟企業業務發展的步伐,不落伍,不掉隊,並持續給出最有力的支撐。

毫無意外,場場爆滿:

廣州分享活動現場

深圳分享活動現場

上海分享活動現場

北京分享活動現場

自動化運維時代,共有的困惑

活動常常爆滿的背後,是大家對於自動化運維的共同需求,以及在推動IT運維自動化過程中有著相同的困惑,比如:

  • 企業落地自動化之前是否一定要先實施標準化?

  • 我們的CMDB配置資料不準確,如何實施自動化?

  • 聽說騰訊藍鯨很強大,用藍鯨和Ansible實現自動化到底有何區別?

  • 我們也想用騰訊藍鯨來落地自己公司的運維自動化,但是以往踩過太多坑了,會不會用了藍鯨之後,又上了另外一條使用門檻高昂,難以下去的“賊船”?

如果你也有著相同的疑惑,同時沒能夠親臨現場,傾聽嘉賓的講解,也沒關係,我們在這篇文章中一起來解答上述的困惑,並最終回到一個出發點:自動化運維時代,我們該如何做才好。

自動化運維完整檢視

首先,我們需要回答一個問題:大家一直在提自動化運維,自動化運維到底包括哪些方面呢?

全球最具權威的IT研究與顧問諮詢公司Gartner對此的定義如下:

自動化運維是通過工具或者平臺,實現IT基礎設施和應用的日常任務和運維流程自動化,從而提高效率,降低風險,促進組織業務能力提升。

主要包括:日常任務處理自動化、運維流程自動化、IT服務自動化、業務服務自動化以及整體運維運營能力升級等內容。

針對上述自動化運維的範疇,Gartner還定義了成熟度模型,如下圖所示:

Gartner將企業實施自動化的成果分為起步、基本、標準、合理、動態等5個階段,在每個階段定義了企業應該達成怎樣的目標,如上圖所示。

無獨有偶,在藍鯨的落地實施過程中,針對企業的運維現狀,由淺入深一般建議按照:基礎架構自動化、應用自動化、IT服務自動化、業務運營自動化;事實上,這四個階段基本對應著Gartner的“基本、標準、合理、動態”四個階段;異曲同工,殊途同歸。

基於上述對於自動化的理解,嘉維藍鯨自動化運維解決方案提供了一套標準的,符合Gartner定義,並貼近國內IT現實的自動化運維全領域檢視,如下所示:

在上述檢視中,如果說騰訊藍鯨平臺是自動化運維這棵大樹的主樹幹,那麼:基礎架構自動化、執行監控和故障管理、業務應用自動化、運維流程自動化就是在數幹上長出來的樹枝;加上統一運維門戶,他們一起構成整個自動化運維的大樹。

自動化之前,一定要標準化嗎?

先說我們的理解:標準化當然要做,但是沒有工具支撐的標準化都是耍流氓;因此兩者可以同步和諧進行,甚至可以先構建自動化平臺或者工具,再在平臺上將我們的標準化落地為具體的自動化流程或者功能。

為什麼這麼說呢?

騰訊藍鯨產品中心總監黨受輝同學經常提到的一個觀點:要實現一個目標,需要三個要素——理念先行、責任到人、工具支撐。

在實現IT運維標準化層面,也是相同的道理。

例如我們要落地IT基礎架構日常運維的標準化,自然是先把口號喊出來,最好辦公室裡貼上一個“奮戰100天,徹底實現基礎架構標準化”紅色橫幅,對吧?

然後走的遠一點的公司呢,可能會專門成立一個標準化小組,來貫徹執行標準化改造的工作,成果一般是交付一大堆關於機房機架管理規範、配置管理標準流程、Linux 生命週期管理規範、日常運維操作規範手冊等的文件,然後就沒有然後了。

你如果真誠的(哎,說你呢,把鼻子上的兩根蔥拔掉)、認真的回憶下自己公司過往的標準化專案經歷,上述的場景是不是很熟悉呢?

究其原因是:離開自動化的平臺或者工具支撐,這種標準化不過是空中樓閣,落地成本巨大(你想象下,凡事都要按照標準流程手動執行,又沒有自動化工具幫助你,你什麼感受?肯定是原來怎麼幹,繼續怎麼幹嘛);落不了地,也談不上改進和調整標準化流程,最後自然是束之高閣,不了了之。

反過來講,比如我們將企業內一個數據庫VM交付的流程通過藍鯨自動化運維平臺,固化成一個流程,這個流程,運維人在自動化平臺上可以一鍵交付;如果這個流程後續滿足不了標準化的要求,我們只需要調整中間的流程節點即可(例如配置資訊不滿足標準化規範,可以調整配置生成的流程原子,使之符合規範),或者重新再造一個標準化流程,成本也非常低(因為藍鯨支援組裝式流程編排,並且構成流程的原子本身可以無限複用),通過這種方式確保標準化能夠真正落地,並能持續改進,同時基於自動化平臺,使得這種流程本身執行和改造的成本都是很低的。

在藍鯨平臺上,為運維標準化的落地提供了包括PaaS層平臺、SaaS層工具等各個層次的支撐,包括CMDB、資源交付自動化、IP地址管理等等。

標準化支撐工具-CMDB

標準化支撐工具-資源交付自動化

標準化支撐工具-網路IP地址管理

藍鯨,輕鬆實現全方位的資料中心基礎架構自動化

資料中心是企業的IT心臟,涵蓋了從中介軟體、資料庫、作業系統等軟體到堡壘機、防火牆、路由交換、備份儲存、伺服器等硬體的基礎架構。

回顧我們前面提到的Gartner的階段劃分,自動化運維基礎層面的實現,就是實現基礎架構資源運維管理的自動化。而藍鯨完全具備這樣的能力。

並且藍鯨在實現基礎架構自動化的過程中,有一套通用的方法論來支撐,就是OASR模型,四個字母分別代表的是:運維物件(Objects)、運維活動(Activities)、運維場景(Scenes)、運維角色(Roles)。幾乎任何一個IT物件的運維管理場景都會涵蓋上述四個方面,不同的運維管理操作的過程其實就是上述四個指標項重新組裝的過程。

對於藍鯨平臺而言,通過藍鯨管控平臺提供的agent代理、API介面、遠端指令碼呼叫等方式,能夠實現運維物件的統一接入、納管以及指令碼、檔案、資料層面的驅動;

而藍鯨的作業平臺、標準運維、配置管理、容器平臺、大資料平臺等PaaS模組涵蓋了幾乎企業所有IT運維運營所需要的能力,並且能夠實現模組能力的持續複用和自定義組裝;

另外,藍鯨的開發者中心所提供的敏捷APP開發功能,使得無論我們面對現在還是未來的各種運維運營場景,都可以通過自定義開發新的APP方式從容應對;

而針對運維人員和許可權的管理,藍鯨提供了統一的許可權管理中心作為統一的控制中樞,同時能夠對接AD、OpenLadp等目錄管理,實現使用者、角色、許可權的統一認證和管理。

可以看到,基於OASR方法論構建的藍鯨平臺,在自動化運維基礎架構層面,能力是非常強大的。

作業系統生命週期自動化管理

資料庫DBA統一工作臺

中介軟體管理工具之一__配置及監控管理

藍鯨,輕鬆實現跨系統、跨應用的、端到端編排操作 

藉助於藍鯨強大的標準運維編排引擎,藍鯨可以實現非常強大的跨越系統、應用、資料中心、工具平臺的端到端的編排操作。

關於藍鯨標準運維的能力,大家可以參見我們之前的文章《看藍鯨標準運維如何編排一切》,裡面對此有非常詳細的講解。

藉助於標準運維:

  • 我們首先考慮清楚需要實現哪些運維場景的運維流程自動化;

  • 接下來就是進行運維流程的梳理和每個原子節點操作的定義;

  • 然後需要考慮哪些人能夠執行這個操作,進行許可權的配置;

  • 接下來便是每個原子操作的快速組裝開發;

  • 再將原子通過圖形拖拽的方式組裝成流程;

  • 進行測試後,就可以釋出為生產環境的流程,供運維人員使用。

標準運維編排的方法論

標準運維編排的方法論

藉助於標準運維,我們自定義各種各樣的運維流程和操作場景,比如應用釋出自動化、ITSM工單自動化、應用災備演練自動化、AD與Exchange協同自動化等等。

最為重要的是,在每個場景中固定下來的原子都可以在未來進行無限次複用;除此之外,由於藍鯨的ESB能夠對接企業內各種第三方系統,因為這種編排可以持續滿足未來的運維場景需求。

應用釋出自動化

災備演練自動化

業務場景自動化

藍鯨故障自愈及資料視覺化

故障自愈可能是藍鯨平臺在業內首倡的理念,同時藍鯨的故障自愈在騰訊內部的大規模環境中也是用的非常廣泛的功能。

故障自愈的原理非常簡單:

接入監控資料來源 → 識別告警,匹配故障自愈策略 → 自動化執行告警 → 通知管理員。

但是,這裡也需要一個前提條件,就是這種故障本身,在我們的環境中出現的原因是可以窮舉的,並且我們有成熟的處理流程和規範,這樣才能夠制定出恰當的故障自愈策略。

故障自愈的方法論如下,先需要對故障做分級以及處理邏輯的制定:

故障自愈的整體架構如下圖所示,這裡的監控告警源既可以是藍鯨自身的藍鯨監控,也可以來自其他監控系統,比如zabbix等;而自動化的故障自愈本身則需要依賴藍鯨的自動化運維的能力去驅動、排程和實現:

支援自定義故障自愈策略

除了執行自動化運維操作之外,我們在日常的管理中,還需要對各種各樣的資料進行彙總、分析、查詢和展示,這種需求既可能來自IT運維人,也可以來自IT或者公司上層的領導,這個時候可以通過嘉維藍鯨的資料視覺化模組,實現非常靈活的資料接入、分析和展示功能。

IT運維自動化時代已經來臨,對於企業而言,這是更迭自己IT運維管理模式與階段的時代,對於運維人而言,也是可以大展拳腳的時代。

而藍鯨能夠在企業IT運維轉型及運維人的轉型上,助一臂之力。

轉載請註明出處。​​​​