數智慧,基於人工智慧技術的IT智慧運維平臺
如今人工智慧(AI)非常火熱,運維領域在經歷了去年最火熱的DevOps以後,今年終於迎來了AI與Ops的結合,今天要介紹的一家位於深圳的初創公司——數智慧,就是一家基於AI的IT智慧運維平臺。
提起運維工程師,很多人都會想到“救火隊員”這個詞。的確,當系統(尤其是業務系統)出現問題時,運維人員必須第一時間進行處理。並且由於白天是業務高峰,所以很多日常的系統維護還需要在半夜進行,艱苦程度可想而知。
與此同時,隨著近幾年IT技術的發展,很多企業系統開始從傳統架構向雲端計算調整,接入公有云或搭建私有云環境,這就使得IT系統架構逐漸複雜;伺服器、網路、儲存等資源也隨著業務和資料量的增長而快速增加;另外在移動網際網路的衝擊下,很多傳統企業開始擁抱改變,業務也發生了重大調整並快速迭代……等等這些,都讓傳統運維的難度和工作量陡然增加。
“在這種情況下,傳統運維工具已無法滿足工程師的實際需求,同時也沒有更好的新工具出現。但是,人工智慧技術的不斷成熟,給運維人員帶來的新的轉機。”鄭華貴向獵雲網(微信:ilieyun)表示。
鄭華貴是“數智慧”專案的創始人。2009年3月從上海交大研究生畢業之後,他便加入招商銀行總行資訊科技部,負責資訊系統運維相關工作。
曾經歷過一線運維的他,在工作中發現了上述痛點和大環境的變化,開始在公司內部嘗試利用AI技術解決運維問題。經過兩年驗證,2016年3月1日,鄭華貴正式離開招行成立數智慧。
他介紹,數智慧是一個基於人工智慧技術的IT智慧運維平臺,希望通過AI的能力改變以往運維工作。用他的話說就是“企業IT運維領域的AI-as-a-Service”。
在系統運維中,預防問題和處理問題是非常重要的兩個工作。以往的運維方式都是部署一套監控軟體並設定一些閾值和告警機制,出現異常資料之後觸發告警,再由運維人員進行故障排查。
“但是這種方式效率非常低,因為監控只能告訴我們哪個數值有異常,但並不能直接指出問題的癥結所在。我們還要進行人工排查和定位。”鄭華貴說。
而數智慧平臺則是另一種思路:讓AI直接對系統進行全盤監控,並在出現故障時直接指出故障原因。這其中:
預警方面:在執行過程中,平臺會通過實時監控系統各項運維指標,進行系統畫像建模,並在第一時間獲取到系統的異動,自動識別異動是正常還是故障情況導致,及時提醒運維人員關注,做到防患於未然。
故障排查方面:
鄭華貴直言,之所以能實現這些功能,數智慧的核心正是他們經過長期的經驗積累,對系統運維的理解以及經過長期訓練的一套完整的演算法模型,使其能夠根據各數值的異動,最終計算出故障原因。在準確性上,鄭華貴直言“暫時還沒有誤報”。
據瞭解,由於系統運維監控需要極高的實時性,並且系統資料也較為敏感,所以數智慧採用本地部署方式,即直接部署到客戶所需監控的系統環境中,包括公有云、私有云等。另外平臺還提供API和操作介面,可直接整合到客戶的監控系統。
值得一提的是,數智慧可以實現“一鍵部署”和“自學習“配置,自動識別監控物件,不需運維人員做任何配置或定製。目前其支援的作業系統有Linux和Unix,Windows版本正在開發。
在商業模式方面,數智慧有些類似SaaS產品,收費方式為按所監控的節點數和使用時長收費。另外其社群版(免費版)預計將在今年推出。
自今年初發布首個版本以來,目前已有招行、廣東移動等多家大型客戶使用。據瞭解,數智慧的目標客戶將重點聚焦在傳統金融公司和互金企業。
2017年鄭華貴透露,他們將繼續進行演算法優化,繼續訓練模型;其次將會拓展平臺的適用性,包括Docker容器雲的支援部署;另外,數智慧將會深入打造“智慧DBA”產品,深入運維的細分領域。
據運維派統計,目前以運維切入的初創企業除了數智慧以外,還有優維科技、雲霽科技、雲智慧、旗雲、運維廚房,不得不說運維的春天來了。