IT:從運維到運營
認識傲寒,是從一本書開始的,書名叫著【CMDB分步構建指南】,建議大家也閱讀一下(需要電子版的可以直接聯絡我:waynewang)。我偷“師”學藝,把書中的一些經驗用到了幾個CMDB專案中,當然最後也確保了專案的成功。再後來我看到國內一款成功的企業級產品–優鍩(http://www.uinnova.cn),這款產品有著精準的場景定位和非常棒的使用者體驗,而傲寒便是這家公司的創始人,讓我對作者有了更全面的認識。本文雖長,但落筆之處皆能看出作者豐富的企業級IT服務經驗。
IT運維?IT運營?
都是 IT Operations,有什麼區別?
IT運維管理?IT運營管理?
都是 ITOM,有什麼區別?
一字之差,只是翻譯不同,還是另有玄機?
其實,中文真的是一門更精確的語言 :-)
- IT運維是“活著”,IT運營是“活得好”;
- IT運維更多是被動式“維持”,IT運營更多是主動式“經營”;
- IT運維更多是面向基礎設施面向軟硬體,IT運營更多是面向業務面向服務面向人;
- IT運維的關鍵詞是“穩定”、“安全”、“可靠”;IT運營的關鍵詞是“體驗”、“效率”、“效益”;
- IT運維管理工具更多是關注故障防範和修復的“監管控”,IT運營管理工具開始更多應用效能、使用者感知、快速交付、資料分析和視覺化。。。
企業IT正站在這樣一個拐點上,要麼從運維走向運營,要麼從運維走向被代維
正文之前的說明:IT運維和 IT運營都非常重要,運維是運營的基礎,任何一個組織,首先是要活著,之後才要追求活得好,是 IT Operations的不同發展階段,今天的 IT運維部門的工作內容其實包括本文所說的 IT運營。
大多數ITOM領域的從業者,一直以來都約定俗成地把ITOM(IT Operation Management)翻譯成IT運維管理,相應的也把IT Operations叫做IT運維。近兩年來,開始有越來越多的人使用“IT運營管理”和“IT運營”這樣的說法,對應的英文是一樣的,但這裡“運維”和“運營”是同樣的意思嗎?兩者之間有什麼異同?
關於這個問題,仁者見仁智者見智。有人認為其實運維就是運營,用個新名詞只是譁眾取寵的噱頭而已;有人認為運維是面向IT設施的,運營是面向業務服務的;有人認為運維是關注IT指標,運營是關注業務指標的;甚至有人說,運維是“眼前的苟且”,運營是“詩和遠方”:-)
總體來看,大多數人認為兩者含義並不完全一樣,很多人都認為IT運營比IT運維的層次更高,有些成熟度較高的大型IT組織已經提出並在執行“從IT運維到IT運營”的發展規劃。但即使在提出這類理念和計劃的組織內部,對於究竟什麼是IT運維管理,什麼是IT運營管理,也還沒有非常清晰的分析和定義,更多的是將傳統IT運維管理領域之外的一些新內容籠統的歸到IT運營管理的部分裡去。我在和某個正在執行此規劃的IT組織中的某位高管交流時,他就提到:“From Operations to Operations?連定義都沒搞清楚,怎麼能成為指導方向和發展目標?”
他的問題讓我這個ITOM的老兵也開始思考“IT運營”這個新“翻譯”的真正含義,以及近幾年來它日益流行的真實原因,在和許多同業交流之後,筆者在此分享一下我關於這個問題的一些想法和心得,作引玉之磚,希望能帶來更多同業的討論和指教。
首先,IT運維和IT運營,英文都是IT Operations,在老外來看,並無區別,是指關於IT執行的所有事情。而中文之所以有兩種不同的翻譯,是因為IT Operations包括的內容很多,IT運維和IT運營兩種中文譯法分別側重其中某一部分的內容,假如歸納成一句話的話,可以說IT運維管理關注的是“活著”,而IT運營管理則有更高層次的需求,不僅要“活著”,還要“活得好”。
先看個例項,某大型資料中心IT服務能力的願景是“以業務為中心,交付穩定、安全、高效的IT運營服務,構建業界領先的IT運營能力,支撐企業的持續發展和戰略成功。”這個願景中,“穩定、安全”就是解決活著的問題,屬於傳統IT運維管理的範疇,“以業務為中心”、“高效”、“業界領先”則屬於如何“活得好”的範疇,更多的是IT運營管理的範疇。
能力建設是有循序漸進的過程的,任何一個組織,首先都要解決“活著”的問題,然後才有可能追求“活得好”,因此,過去三十年,在大多數IT組織面臨IT設施規模快速擴張,IT應用數量不斷增多,IT執行壓力越來越大的挑戰時,首先要確保IT系統“活著”,也就是能夠持續“執行”,穩定“運轉”,通過日常“維護”工作讓系統少出故障,出了故障能快速“維修”,“維持”系統的正常“運轉”。這個階段把IT Operations翻譯成IT運維,把ITOM翻譯成IT運維管理,無可厚非。
IT運維管理階段的關鍵詞是“穩定”、“安全”、“可靠”,關注可用性指標(MTTR、MTTF、MTBF等)、可靠性指標(RTO、RPO)和安全合規。相應地,在技術、工具和流程上,都以穩定、安全、可靠作為最優先考慮的要素:
- 技術上,傾向選擇穩定成熟的技術架構和產品,願意為提升可靠性支付大量溢價,上得起小型機的就上小型機,買得起大機那就大機,能備份的地方就備份,儘量採用全冗餘架構;
- 流程上,首先從事件管理和變更管理做起,主要目標是能確保故障事件得到追蹤和及時解決,以及管控變更避免人為故障多發,關注重點還是在提升可用性;
- 工具上,採用“監-管-控”架構,其中監控更關注裝置級監控,重點發現故障節點,“管”就是配合實現變更和事件流程,至於“控”,此時上配置自動化工具,更關心的是實現配置的標準化和合規檢查,重點還是在增強可靠性減少故障,而非減少運維人員工作量。
在以“活著”為主要目標,以“穩”為主要形態的IT運維和IT運維管理髮展多年後,越來越多的IT組織開始走出這個解決基本生存需求的階段,從“被動維持”走向“主動經營”,追求如何“活得好”,近十年來,APM、BSM、雲端計算、運維大資料等新的理念、技術和工具的出現、發展和變遷,都和IT正逐步開始從運維走向運營有密切關係,時至今日,從全域性角度來看,可以說企業IT已經站在了從運維到運營的一個重要拐點上。
IT運營是建立在良好的IT運維的基礎上的,沒有“活著”,“活得好”就無從談起。 但怎樣才叫活得好呢? 換言之,IT運營追求的目標究竟是什麼?比IT運維多了哪些東西呢?
與IT運維更多地是面向基礎設施不同,IT運營更多的是面向業務、面向服務,本質上是面向人。我們說某個人活得好不好,如何判斷呢?大多數人認同的馬斯洛需求層次理論說,在解決了基本的生存問題和安全感之後,一個人要感覺自己活得好,是需要有社會認同和自我實現的。對於CIO來說,他所管理的IT組織假如能讓三類人滿意,我們就可以說這個IT組織已經從基本的IT運維階段走到IT運營階段,已經處在活得好的狀態了。
哪三類人呢?
使用者、老闆和IT人。假如IT組織是一個獨立公司的話,這三類人基本對應著客戶、股東和員工,CIO如果是公司老闆,就會知道其實這三類人是哪個都得罪不起的:客戶不滿意會流失,企業就沒有生存之本;股東不滿意會換人,說明企業沒有競爭力;員工不滿意會換地兒,企業就缺乏持久發展的能力。儘管行業特點和企業文化不同會帶來優先順序和側重點的不同,但本質上,一個有長遠發展前景的卓越公司,往往是做到了讓客戶、股東和員工都滿意的公司。
IT運維階段,IT組織更多地還是在解決三類人的基本需求,讓使用者能用,讓老闆批錢,讓員工幹活,當然也希望大家更滿意,但受限於階段效能力和各方面因素,先能保證這些基本需求就已經很不容易了,而做到這些,在相當長時間內也已經足夠,主要因為幾個原因:
- 各企業資訊化之初,能夠利用IT實現對業務和管理流程的優化、固化和自動化,就已經達到目標;
- 初期系統以內部員工為主要使用者,且沒有同類系統做對比,使用者對系統效率和體驗的容忍度高;
- IT部門在企業內部的IT能力供給上基本是壟斷的,使用者沒有其它選擇。
因此,過去雖然IT部門提供的即使只是滿足基本需求的服務,大多數情況下也並沒有多大問題。但短短十年間,網際網路和移動網際網路大潮席捲世界的每個角落,每天用著微信滴滴淘寶攜程的使用者們的胃口已經越來越高了,過去能夠忍受的一些小問題也已經變得忍無可忍了:
- 人家網站那麼快,咱們的系統怎麼都是老和尚,點一下滑鼠要等一炷香才動一下?
- 人家網站第一次用沒人教我就全部自己搞定,咱們系統怎麼培訓幾回我都搞不清怎麼用?
- 人家網站一看就是賞心悅目高大上,咱們系統怎麼就總是Low逼的不行?
- 人家網站免費郵箱都無限容量,咱們怎麼花那麼多錢還每人限收發10M內郵件?
不知從哪天起,過去和企業IT八竿子打不著的“人家”一下子蹦出來,成了IT部門的變相競爭對手了,沒搶走使用者,但把使用者滿意度搶走了。更要命的是,隨著雲端計算各種aaS的風起雲湧,這些“人家”未來沒準兒真的要來搶走使用者了。假如IT部門不能與時俱進,還是停留在滿足基本需求的運維上,而不主動向追求卓越的運營邁進,提供更有競爭力的優質IT服務,那就很可能會在幾年後會碰到更大的挑戰。
而在IT運營階段,與IT運維階段的關鍵詞“穩定”、“安全”、“可靠”不同,關注的關鍵詞變成了“體驗”、“效率”、“效益”。回顧前面我們提到某大型資料中心的願景中“以業務為中心”、“高效”兩個運營關鍵詞,其實“以業務為中心”就對應著“以使用者為中心”,業務就是以使用者為中心的嗎,而使用者關心的就是體驗(穩定可靠也是體驗的一部分)。“高效”則包含著高效率和高效益兩個含義,一個關注敏捷性,交付速度、響應速度,一個關注成本收益,關注服務獲取效率。
(假如說IT運維以“穩”為主,那麼IT運營則以”敏“為主,在技術架構選擇和IT管理流程和系統的建設上面,IT運營階段都和傳統IT運維階段的關注重點有所轉變,從而帶來了新舊架構、新舊工具、新舊方法並存甚至交匯的複雜情況,Gartner在提的Bimodal,聯想所說的雙態IT,也都在反映這種狀態。)
讓我們圍繞三類人的需求簡單看看IT運營比之IT運維階段要面臨的新挑戰,以及應對挑戰在出現的一些新的理念、工具和技術:
讓使用者滿意
使用者大致有兩類,個人使用者和業務部門:
個人使用者,不論是內部使用者還是外部使用者,更關心的是體驗,體驗主要是易用性、容錯性和響應速度;要提升體驗,對於IT運營管理領域就帶來了新的要求,要在傳統的裝置和元件監控的基礎上,增加端到端的使用者體驗感知能力、應用效能的深入探測和分析能力、應用及系統性能瓶頸的發現和優化能力。
越來越多IT組織開始關注使用者體驗,從而紛紛部署包括外部模擬模擬探測、流量資料分析、日誌資料分析、嵌碼採集探測等各種針對應用效能管理的手段工具 ,造就了近年來APM市場熱度飆升。
這些採用不同手段的APM工具雖然有功能重疊的部分,但各有其側重點,多種工具的部署能帶來資料和功能的豐富性和多樣性,對於準確測量和提升客戶體驗是有必要的,事實上在那些特別重視使用者體驗的IT組織裡,已經或者正在進行全方位的工具部署,並在嘗試在各種專業分析工具之間架設運營大資料工具,整合多樣化資料,提供資料的統一視覺化和整合分析等能力,提升故障和優化點的定位分析能力,深度改善使用者體驗。
業務部門,除了關心終端使用者的體驗,更關心交付效率,與之相應的,IT部門開始在各個環節上採用新架構、新技術和新工具,從各個環節上提升效率,加快業務服務的交付速度。
- 提高採購流程和硬體上架的效率:IaaS雲和資源池模式改變了傳統的按需採購模式,通過資源整合,將資源規劃和資源準備的工作批量前移,極致地提高了預算、採購和硬體上架的效率;
- 提高系統部署和應用釋出更新的效率:採用各種雲管理工具、雲管理平臺及DevOps工具,通過自動化部署、配置管理等功能元件的組合,或從橫向的系統層次上,或從縱向的應用釋出執行鏈條上,或者協同配合,不同程度地提高了應用元件甚至是整個業務系統的交付和釋出效率,實現對業務部門交付需求的及時甚至實時響應,達到“敏捷”的程度。
讓老闆滿意
讓使用者滿意是讓老闆滿意的基礎,假如業務部門天天在老闆那兒告狀,老闆怎麼都滿意不了。但是即便業務部門都說你好話了,老闆就會滿意了嗎?要是你真的這麼認為,說明你太不瞭解老闆這種動物了。
老闆要的不只是結果,也一定會追求高效率和高效益,同樣的成果,能否用更低的成本達成?我們現在的成本收益水平,對應業界同行,是人傻錢多還是精明高效?說要追求“業界領先”,怎麼就是領先了?不能說技術更新應用更多就是領先吧?總要有個從效益角度的衡量方法吧?假如IT部門是一個獨立運營的實體,作為給錢的股東,也是要問這些問題的。
效益本質上是投資回報率,成本越低,效益越好,做的事情越有用,效益越高。要追求高效益,首先面臨的難題是要有一套成本收益的衡量體系,沒有量化方法,既搞不清楚IT部門當前在同業中所處的水平,更無法通過指標考核的方式推動IT部門不斷提高效益水平。在沒有這套衡量體系的時候,往往只能採用一些非常粗線條甚至感性的衡量方式,比如看每年的IT採購金額、IT員工數量、工業標準產品的採購單價等,導致很多IT部門在採購時往往要求廠商保證提供同行業最低價,可當大家都這麼要求的時候,顯然很難真正起到效果。更為重要的是,由於每個企業在業務和IT服務方面存在的差異性,這些粗線條指標並不能反映IT部門的效率和效益水平。
ITIL體系中早就提出了IT服務財務管理的概念,許多IT組織在過去十年嘗試了一些BSM(業務服務管理)和ITFM(IT財務管理)的專案,一個重要動因就是試圖建立IT效益的衡量體系,可在內部IT部門中成功者寥寥,主要原因是全部精力投入到基礎運維工作中還忙不過來,另一方面也和缺乏特別成功的最佳實踐有關。
不過隨著大家的不斷嘗試,伴隨近年來IT架構的演進和公有云的興起,一些走在前面的IT部門已經看到了建立IT效益衡量體系的可能性,並開始在某些架構層級上開始嘗試性的探索:他們採用服務分層、成本歸集、各自對標的方式,對DC層、IaaS層、PaaS層的資源單位成本、資源利用效率、能源單位成本、能源利用效率和人員運營效率進行分別統計和分析,並分別和IDC、IaaS雲、PaaS雲的外部供應商市場價位水平做對照,來衡量自己的效率和效益水平。
IT效益衡量體系的建立,也讓IT自己可以從效益角度分解目標,推動IT內各個部門能夠逐年不斷提升效率和效益水平,讓IT部門的思考方式從成本中心轉變到利潤中心。近年來綠色資料中心概念和PUE指標被關注,都反映了這一變化趨勢。
要注意的是,即使建立了效益衡量體系,要讓它真正發揮作用,離不開大量的資料統計和資料分析,以及關鍵效益指標的視覺化和透明化,很多IT組織開始嘗試建立IT運維/運營大資料平臺,引入視覺化和BVD概念,也都和追求IT效益可衡量有密切關係。而這些也會帶來額外的投入,IT組織可以根據自身的規模和目標優先順序,在有必要的情況下,選擇合適和成熟的切入點,分步嘗試,逐漸建立效益衡量體系。
讓員工滿意
網際網路企業的火熱和各行業網際網路+的熱鬧,都帶來了IT人才的爭奪,如何吸引和保留高素質的IT員工,已經成為許多IT部門不得不面對的新問題。要讓IT員工滿意,前面的兩個滿意(使用者滿意和老闆滿意)也是個重要基礎,否則IT部門自己地位都不高,員工也沒有成就感,士氣低迷,滿意度很難高起來。
但即使做到了前面兩個滿意,假如讓IT員工每天都疲於奔命,員工滿意度同樣會差,也不是長久之計。要解決員工滿意度的問題,有幾個方面是要考慮到的:
- 提高自動化水平:與運維階段自動化更關注的是讓標準化落地以減少故障不同,運營階段更關注通過自動化減少員工的重複性勞動,更多地將精力放在能帶來更大價值的標準制定和技術優化上面,讓IT員工從技術工人變成真正的工程師;(自動化也會帶來效益的提升,隨著分散式、虛擬化和雲端計算的普及,自動化已經成為不可或缺的手段,在一些大型網際網路公司,人均管理伺服器數量早已超過了業界1:200的良好水平)
- 增加人性化因素:傳統運維階段為了穩定安全不但在軟硬體上投入巨大,而且往往在某種程度上不惜增加員工工作的繁瑣程度,在人性化方面考慮較少。不少IT組織已經開始從幾個方面進行改善:優化流程並引入新工具以減少員工的繁瑣文案工作;提供場景化運維能力改善工具的易用性,讓IT人員在運維和排障工作中更得心應手,提高IT系統穩定性的同時形成以工作場景為中心的運維方式;與時俱進引入新技術,在保持安全和風控水平的同時改善IT人員的操作複雜度(比如打破僵硬的網路隔離機制、實現移動化運維等);
- 嘗試和引入先進技術:為追求穩定安全,傳統IT運維在技術選擇和使用上偏向保守,這固然有其道理,但優秀的IT人往往是對新技術有追求的,在技術演進日新月異、新技術傳播和應用速度如飛的今天,假如工作中接觸不到新技術新思路,IT人的技術追求被壓抑,並往往會伴生強烈的技術危機感,會導致對IT人才吸引力和保持力不夠。IT部門應在技術規劃中重視這一因素,在保證關鍵業務穩定執行的前提下,有意識有計劃地不斷嘗試和引進新技術,確保技術的先進性,拋開其它收益不談,但就提高員工滿意度和優秀人才吸引力而言,已經是非常值得的。
以上從三個滿意的角度簡單聊了聊從IT運維到IT運營的一些內容,有趣的是,這些滿意是遞進和包含的關係,讓員工滿意包括讓老闆滿意,讓老闆滿意包括讓使用者滿意,讓業務部門滿意包括讓個人使用者滿意,但每個滿意之間又都有各自的個性化內容。
要做到三個滿意,讓IT從“活著”到“活得好”,從重點“維”穩走向經營業務價值,意味著IT管理要更加精細化、自動化、智慧化,也必須建立多樣化的資料採集、多維度的資料分析/挖掘和全方位的視覺化的能力,IT運營管理的架構也將在傳統監管控的IT運維管理架構上有所發展和變化,以適應IT運營在體驗、效率和效益方面的更多要求。
需要注意的是,IT涉及到規劃、設計、開發和運營多個環節,我們更多的是從運營的角度來談的,事實上要從IT運維走向IT運營,不僅需要運營部門(不再只是運維部門啦)的努力,也需要規劃、管理和開發部門的協同配合和齊頭並進。
從IT運維到IT運營,其實標誌著IT組織成熟度的提升,假如借用Gartner的I&O成熟度模型來看的話,IT運維更多是在前幾個階段,而更多開始關注IT運營,則標誌著IT組織走到了後兩個階段:Service Aligned和Business Partnership,開始把IT本身當做業務來運營,以客戶為中心,關注客戶體驗,運營效率和成本收益。
以上是關於IT運維到IT運營的一些不成熟的思考,拋磚引玉,希望能得到大家的批評和指教。
從IT運維到IT運營,許多IT組織已經在路上,同樣也有許多IT產品和IT服務的提供商已經洞悉到這一發展趨勢,配合IT運營的要求,開發和提供了許多新的運營工具和運營服務,我們希望能夠與各位有志於ITOM領域的同仁們一起,齊心協力,精益求精,共同提供優秀的ITOM產品和服務,為IT從運維到運營做一點事情,讓IT不僅活著,而且要活得好,活得精彩。
文/傲寒
原文出處:網際網路運維雜談微信公眾號