1. 程式人生 > >中國移動王曉徵:移動的運維實踐之路

中國移動王曉徵:移動的運維實踐之路

作者簡介:

王曉徵

中國移動浙江公司 資訊科技部副總經理

中國行動通訊集團浙江有限公司資訊科技部副總經理,中國移動集團業務支撐高階技術專家。

前言

作者是中國移動浙江公司資訊科技部副總經理兼雲端計算中心主任,本文主要講中國移動浙江公司雲運維的一些實踐。

1、我們的IOE時代

首先看一下,談到運營商大家都會有這個感覺我們是一個電信化的企業,電信講究的是標準、規範,在電信的 IT 時代中,我們曾經用過當時國內非常先進的技術,就是 IOE 。

1998年我們就進入了惠普高階小型機,當時有個笑話,我們在引入惠普小機的時候工作進度比我們預想的工期慢很多,因為美國政府懷疑我們引用這些小機有軍事方面的用途。

後來我們到 2003 年組建了一個以 OCM 為核心的資料庫團隊,在 Oracle 執行方面在業界也是跑得比較領先的。

自從 2011 年以來去 IOE  這塊走得非常迅猛,包括這個東西對我們運營商,對我們金融行業,都造成了非常大的影響。

2、去IOE時代的背景與驅動

對我們運營商來說內部也提出了一些系統雲化和去 IOE 方面的設想。

不管怎麼說,這種靈活性、彈性、開放性永遠是一個企業所追求的夢想,儘管我們的架構曾經非常的強大也非常的傳統,但是還是要把自己的架構進行轉變。

如果說,我們運營商也要談去 IOE 的話,是有我們自己的驅動原因,因為我們的業務也在發展,是 4G 時代背景下要求的。

在這種情況下 IT 架構也需要做分散式的改造,我們需要能夠支撐這樣網際網路式的業務,而且我們的能力也需要能夠內化,逐漸加強我們運營商自己的核心能力掌控,包括成本,還有一些社會責任方面的考慮。

3、保守OR前進

我們可以看到,要完成這些改變是很難的,曾經有過一個輝煌的過去,你要去改變這有多難。

給大家舉個例子,幾千年來中國和英國的弓箭手都是非常有名的,有一個非常大的區別,英格蘭長弓手大概在16世紀就逐步退出軍隊了,而我們中國的長弓手到1840年以後才逐步退出戰場。

一個技術發展了,這就是兩家公司是不是能夠比較好的擁抱新技術的結果,一個轉型的公司損失可能只有10個人,沒有轉型的公司損失非常大,這必須要去調整。

從這個角度來說,任何一個科技、技術都有時代性,如果到了不屬於它的時代,我們就必須要顛覆我們自己,這是一種理念的變化。

4、雲化之路征程開始

我們之前也做了相當多的事情,我們從 2009 年開始已經對雲端計算開始進行研究和遷移,我們大概是在 2013 年開始把我們的核心資料庫進行了 X86 化,我們資料庫的去 IOE 工作已經基本上完成了。

4.1 我們的雲化之路

從2011年開始,我們的核心融合 CRM 系統,到 2015 年為止,我們所有的核心繫統已經全部都跑在 X86 伺服器上。

另外這兩年 Docker 技術比較熱,從2014年開始我們引入 Docker 技術,到了2016年的6月份,我們全省的 CRM 前端已經全部實現了 DCOS 化,全部跑在容器上。到目前為止,我們把所有的核心繫統正在往 Docker 上進行遷移。

4.2 前進上的挑戰

在這個發展過程中我們面對的挑戰是什麼?

  • 第一,在系統要雲化要去 IOE,但是對我們的穩定性和可用性的標準沒有降低,還是在提升。
  • 第二,技術棧變化對我們的團隊的衝擊是非常大的。
  • 第三,要求我們在變化的過程中還要能夠節省和保持成本的穩定。
  • 第四,我們這個團隊定位是什麼—運維團隊?

最後這項我覺得很重要,以前我們在 IOE 時代,團隊定位就是一個實實在在的運維團隊。

面對現在這樣的情境,我們是否仍然是一個運維團隊,還是說應該自己顛覆自己去做一些其他的事情,這是對我們非常大的一種挑戰。

我們一共做了四個方面工作,一方面把我們的運維團隊要走出來,自己推出新一代的雲平臺的技術架構的建設,由運維團隊來推動技術棧的變化。

再有我們的定位也發生了變化,從純運維走向逐步的運維開發,再從運維開發逐步走向雲平臺的規劃和建設,這是對我們團隊本身定位的一種變化。

另外一塊是模式的變化,我們的執行模式也發生了變化,我們從一個抗拒變化的傳統運維,到現在把自己塑造成了一個運維開發團隊,變成了一個 DevOps 團隊,變成了一個建設規劃團隊。

這種情況下我們把我們團隊的理念和執行模式也發生了一些變化,而且我們的運維體系,從傳統的逐漸向新的運維體系進行調整。

4.3 擁抱雲化的轉型

有一個非常好的概念叫做輕量化的 ITSM,中國移動在國內 ITSM 的實踐上也是走得比較領先的,現在可能是我們應該從傳統的 ITSM 逐步走向輕量型 ITSM 的時代。

上圖的是定位的變化,我們把我們的運維團隊逐漸變成了一個運維經驗平臺的建設者和架構的管控者,不是直接守著 IOE 的平臺不往前走,而是要去看我們的開發是怎麼把能力輸出給我們的運維團隊的。

同時在這個過程中我們應該在裡面發揮什麼作用,我們自己去建設我們自己的一個運營的平臺,同時我們對 IT 的架構要有自己的理解和掌控的能力。

另外一塊,這個圖左邊是一隻貓,右邊是一個牛,其實在 IOE 時代我們都會發現,我們的 IT 系統穩定性是取決於我們的技術架構自身的穩定性。

但是在去 IOE 的時候,特別是去“I”,單個 X86 伺服器的穩定性不再重要,某種意義上我們把我們的伺服器從寵物變成了肉牛,這個對我們運維團隊的挑戰是非常大的。

某種意義上說,去“I”後不再穩定,我們要用一個穩定的 DCOS 架構去顛覆它,總得有一個穩定的。

這是我們運維體系的變化,其實在2010年以前走的是標準化的傳統的架構,後面逐漸把我們的架構向輕量級的 ITSM 進行轉移。

5、新模式下的新成果

5.1 新型的運維組織架構

下圖是我們運維團隊構成的轉型,我們把自己的純運維團隊逐漸增加了一個開發的屬性。

另外,我們把曾經完全豎井化的運維架構,在中間我們培養出來的全棧工程師,把這些系統的維護進行拉通。

上圖我們的一個組織架構的轉型。我們目前也成立了雲端計算中心,這個就是我剛才說的,我們把一個曾經的運維團隊轉型成一個架構的治理、建設、規劃團隊,這樣我們的運維團隊可以做到 40歲也沒問題。

5.2 更透明的問題處理方式

傳統運維在自動化、視覺化、效率方面問題是比較多的,我們當時在傳統的時候會發現,我們的應用租戶始終覺得我們的平臺不透明。

比如我們的租戶在維護他的應用系統的時候,他會覺得是不是主機有問題、伺服器有問題、資料庫有問題,這種情況下我們很難說服他。

我們想辦法做一個比較好的視覺化工具,我們把自己的狀態主動暴露給租戶,這樣可以極大提升租戶執行的感知。

舉個例子,我們在做維護的時候,特地增加了一部分的自動化的運維能力,其中比較好的兩個能力,現在對核心資料庫的異常操作是我們目前實現了自動化查殺,另外一塊我們已經實現了通過手機 APP 對系統的災備進行切換。

6、邁入新戰場

上圖是雲平臺規劃的藍圖,詳細不展開,我們的團隊現在已經從一個系統的維護者轉向一個系統的雲平臺的規劃和建設者的角度去進行轉型。

下圖我們一個技術預研體系,我們現在在實際工作中,對於我們運營商的 IT 團隊,有的時候也比較被動。

因為我們技術棧的引入很可能是由我們的開發團隊去定的,但如果開發團隊比較豎的話,會造成技術架構不標準,所以現在我們提出“預研一代、測試一代、推廣一代”的工作策略。

下圖是我們的一個重頭戲,我們現在已經把我們的核心繫統中的包括手機營業廳、CRM 前端全部跑在雲上。

我們現在也已經把核心資料庫全部都跑在了 X86 伺服器上。應該說很多電信運營商目前都面臨這樣的挑戰,希望能夠在核心資料庫伺服器上進行去 IOE,這個我們浙江移動這邊基本上也已經實現了。

7、抓實戰促穩定

最後講到實戰的問題,剛才寫到我們現在把容災切換做到手機 APP 上,這個前提是我們的容災切換必須是隨時可以切換的。

我們有一個比較好的災備的管理體系,在巔峰時期大概每年的災備演練有300次左右,現在因為我們的技術架構發生了一些變化,目前沒有這麼多的演練次數。

我們最早的時候用的災備技術是用儲存複製技術為核心區區別做的,這種情況下資料中心處於冷備狀態。

我們通過技術和管理的結合,要保證災備切換的成功率至少要達到兩個9以上,這種情況下再通過手機 APP 實現移動端的災備切換。

我們最近一次在 APP 端的災備切換大概花了8分鐘左右。自己做災備切換這麼多年,我的感覺是,災備切換本身是一個管理問題

8、面對明天的困惑

現在我們心中也有一些思考和困惑,第一個是標準的問題,未來我們的團隊會從運維轉向平臺,轉向私有云的建設,在雲的建設時候,我們應該怎麼樣面臨不同的租戶提供不同的服務級別。

我參考過國內很多網際網路公司公有云上開放的服務標準,但是越看越困惑,因為免責條款太多了。

如果按照這樣的免責條款,我們的團隊 SLI 非常容易達到,但是面對私有云租戶不能用這麼低的 SLI,這是我們非常困惑的問題。

另外是價值,如何使IT產生價值,如何使我們的雲平臺產生價值,怎麼讓我的業務產生價值,因為有的時候我們做了很多技術創新。

但是這些技術創新到底怎麼樣讓我們的業務部門認可,讓我們的領導能夠認可,這是一個比較大的困惑。

我們是運營商的傳統企業,在傳統企業的體制限制之內如何進一步發展我們團隊的活力,這是一個非常大的挑戰。

還一塊是當下技術發展特別快,當年在 IOE 時代,其實我們的 IOE 時代也持續了差不多有10年之久,我們曾經花了這麼長時間,在 IOE 時代把我們的團隊做到了應該說在業界還是比較可以的。

但是現在技術發展很快,有時候我在想,可能我們花兩年時間去研究透一個技術,可能兩年後這個技術已經淘汰了,這種情況下我如何來管理我的技術棧,如何管理技術團隊的穩定性,這可能是後面對我們 IT 團隊非常大的一個挑戰。

9、尾聲

運維都是說背鍋俠,先請大家看一張圖,我一直認為,從清朝開始,清朝是滿清入關的開始,那時候開始把我們漢人連發式都進行了改變。

後面經過曾國藩、孫中山先生等這麼多年的奮鬥,最終還是建立了民國。從這個角度來說,我們的運維今天也應該有信心,我相信我們的運維可以做到40歲,我相信我們的運維不會永遠是背鍋俠。

夢想還是要有的,萬一實現了呢。我們的很多先輩花了那麼多的時間,可以把清朝變成民國,這麼大一件事情都能做成,那我們運維為什麼不能轉型,這完全是可以的。

還有就是心有多大,地有多寬。負重前進,實幹創新,任何事情都是你做出來的,我們運維的明天掌握在我們運維人自己的手裡。

原文來自:http://chuansong.me/n/1686515051313