1. 程式人生 > 實用技巧 >管理自動化:企業上雲必由之路

管理自動化:企業上雲必由之路

導讀:自動化管理雲上資源,不僅僅是降低財務成本,更重要的是能夠降低技術門檻,同時提高效率,節省時間。

為何要自動化?

在服務客戶的過程中,我們發現國外客戶相比於國內客戶,明顯對自動化工具的依賴度要更高。許多觀點認為這是由於國外技術導向、人力成本高、管理上對合規要求高等特點導致對 IT 系統自動化國外公司的需求會更強烈。而國內公司由於發展階段不同,更加業務導向,人力資源也相對充足,往往會用人海戰術來解決 IT 基礎設施不夠發達的問題。

然而,隨著雲端計算的不斷成熟,上雲已是大勢所趨,再遵循舊的思路將會對企業經營產生重大影響。自動化管理雲上資源,不僅僅是降低財務成本,更重要的是能夠降低技術門檻,同時提高效率,提升企業競爭力。

企業客戶的自動化需求

客戶雲上自動化需要關注哪些維度呢?下面我們從一個客戶案例來一窺企業在上雲時的需求

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片儲存下來直接上傳(img-VxvvVdDj-1602638384495)(https://i.loli.net/2020/10/14/hsowj5zeBumY2qT.png)]

在上圖的情境中,客戶對於雲平臺的需求顯然並不僅僅是開發運維領域的程式設計自動化,實際上首先要考慮的反而是如何管理預算和人員。

通過溝通分析,該客戶上雲主要的需求為:

  • 組織管理功能
    許多企業都有自己的賬號系統和許可權系統,這些系統需要與雲上系統打通。在阿里雲上可以使用企業 IT 治理產品線下的訪問控制 RAM(包含身份管理、許可權管理等元件),資源管理(包含資源目錄、資源組、資源共享、Tag 等元件)等產品實現。

  • 基礎設施自動化編排
    阿里雲已經提供了 200 多個雲服務,1 萬多個 OpenAPI,類似 Terraform/ROS 這樣的資源編排工具能夠幫助客戶通過 IaC 的理念高效管理雲資源,降低複雜度。

  • 應用程式自動化編排
    應用的部署是 ansible、puppet、chef 等開源運維工具的用武之地,阿里雲目前重點支援 ansible,同時也提供 OOS 運維編排服務,前不久還推出了 OAM 規範,進一步簡化了應用部署的過程。

  • 安全需求
    如果沒有自動化手段,僅靠人工修復安全漏洞往往是來不及的。阿里雲的 OpenAPI 體系在 RAM 及其他安全產品的加持下,具備高度的安全性,能夠防止各類安全問題。

  • 合規需求
    合規一方面是對外合規,比如審計資料、財務資料合規,另一方面是內部資料的合規。阿里雲提供操作審計(ActionTrial)和配置審計(Config)兩款產品給客戶,同時還提供針對行業雲的合規能力,後文會介紹。

  • 監控需求
    監控在資源託管到雲上的情況下,需要將監控體系與企業本身的運作打通,包括資料打通,資料視覺化等。雲監控是阿里雲上實施自動化監控的利器,除了視覺化的介面外,也可以通過 OpenAPI 對接客戶系統

  • 費用需求
    除了前面說到的財務合規方面的問題(例如分賬),同時也涉及到成本優化。這方面阿里雲提供了 Tag/資源組等資源打標方式,通過這些標籤或分組可以給客戶提供細粒度的分賬方式。

  • 態勢感知
    客戶有需求根據目前資源使用情況,及歷史記錄,或者根據事先規劃,提前做好資源儲備,快速調配資源。這一方面要求雲端計算具備快速擴縮容的能力,另一方面也需要能夠具備資源用量、計劃的感知能力。

針對上述企業場景,向大家隆重介紹一下阿里雲開放平臺團隊推出的集上述能力之大成的樣板間專案(複製連結至瀏覽器開啟 https://open.aliyun.com/landing-zone)。樣板間不僅僅從概念上定義了企業 IT 上雲的最佳實踐,同時還提供了自動化 Terraform 程式碼實現,讀者可以點選連結:https://github.com/aliyun/alibabacloud-landing-zone 下載最新的程式碼學習交流。

OpenAPI 自動化能力升級

除了功能,過去客戶自動化會碰到什麼樣的技術問題呢?再次拿客戶案例來看一下:

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片儲存下來直接上傳(img-PRteH1ko-1602638384498)(https://i.loli.net/2020/10/14/xJGAoqzfmaK7VTP.png)]

如上圖所示,過去阿里雲在自動化的基礎能力方面存在幾個長期存在的問題:

  • Terraform 等編排產品覆蓋度不足,導致部分產品無法快速編排;
  • OpenAPI 層面的許多呼叫策略不清晰,影響客戶端效率優化,例如流控閾值不透明,呼叫方出現問題不知原因;
  • 對於重要的資源,客戶側比較難以獲知自身擁有的配額限制,客戶只能通過工單來提需求,響應速度有限;
  • 由於歷史原因,許多阿里雲的產品需要手工開通,成了自動化路上的絆腳石;
  • 阿里雲產品間互通訪問需要客戶手工在控制檯進行授權,直接阻礙了自動化鏈路。
    為了解決上述問題,過去一段時間,阿里雲在這些影響使用者體驗的卡點上都發力解決,取得了一些成果。

Terraform 產品支援

WeWork 是一家專注於聯合辦公社群的公司,它選擇了阿里雲作為合作伙伴,在基礎資源、全球網路、安全、IOT、大資料等方面都開展了深度合作。運維負責人餘亮介紹說,WeWork 基礎架構團隊基於 Terraform 用不到 2 人在短短數月打造了一套可管控的自服務門戶,實現秒級的全自動部署,以 3 人團隊支撐了 40+ 業務系統的基礎架構運維工作,確保安全與合規。

image.png

目前阿里雲 Terraform 所支援的產品數從 40 款上升到 53 款,資源數增加到 249 種資源,已經能夠滿足絕大多數場景的需求。下半年阿里雲也將推出一些工具,如提供雲端 Terraform 的工作流,免去客戶自己搭建和管理 Terraform 工作流的額外負擔;提供視覺化編寫 Terraform 模板的能力,降低客戶使用成本的同時提升使用體驗。

配額管理

配額管理是自動化過程中的又一大問題。使用者常見的訴求是想知道自己有多少配額,用了多少,如何提升配額,如何更細粒度地在組織中管理配額。

針對使用者無法快速獲取和調整配額問題,阿里雲推出了配額中心(複製連結至瀏覽器開啟 https://quotas.console.aliyun.com)。配額中心主要流程示意圖如下:

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片儲存下來直接上傳(img-6XrJ0DoX-1602638384502)(https://i.loli.net/2020/10/14/cIBsARrw9G4mtOP.png)]

配額中心主要解決三方面問題:

  • 使用者查詢產品配額的需求
    使用者登入上述連結後,能夠快速檢視多達 15 款雲產品的配額設定,當前配額使用量等資訊。

  • 使用者自助申請調整配額需求
    客戶可以直接在配額中心提交配額調整申請,相關申請會即刻通知相應雲產品的管理員,根據客戶的實際情況會快速決定是否審批通過,處理效率大大提高。

  • 提供獲取配額的 OpenAPI 和告警
    客戶側的應用程式可能需要實時獲取配額資訊,以決定下一步操作流程。同時在配額不足的時候,希望能夠收到相應的告警,以及時調整執行策略。

配額中心上線以來,已經有數百位企業客戶成功通過配額平臺完成配額提升申請,今後會有更多的雲產品接入配額中心。

雲產品開通自動化

阿里雲存在許多需要手工控制檯開通的雲產品,這種限制確實在某些情況下導致客戶的自動化路徑受阻。

針對這個自動化路上的卡點,阿里雲推動相關產品做了升級改造,過去需要手工開通的產品中有 13 款產品已完全實現免開通,9 款產品提供自動化開通 OpenAPI,另外還有若干需要手動開通的產品將在下半年繼續推進,最終做到開通環節 100% 自動化。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片儲存下來直接上傳(img-9vkaZCA3-1602638384504)(https://i.loli.net/2020/10/14/Uqsbt8VH3WaLIwR.png)]

阿里雲的 Terraform Provider 也會第一時間來支援,只需要在模板中增加一個對應雲產品開通的 DataSource,並設定開通的動作 enable = “On”,然後執行簡單的 Terraform Apply 命令即可完成自動化開通。例如,日誌服務 Terraform 自動化開通程式碼如下:

data "alicloud_log_service" "open" { enable = "On" }

跨服務訪問 SLR

實際業務中經常遇到雲服務 A 需要訪問另外雲服務 B 中資源的情況。例如 ECS 匯出映象到 OSS,需要從 ECS 後端直接呼叫客戶的 OSS 上傳檔案介面,這些資源屬於客戶,但卻不是同一個雲服務管理的。這個過程本質上是要獲取使用者身份和許可權,過去要想實現這種操作,需要建立服務角色,使用者需要在快捷授權頁(控制檯)上通過 RAM 授權完成,而不能自動化。

而 SLR(Service Linked Role)機制的訪問流程如下:

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片儲存下來直接上傳(img-onyPh0LD-1602638384505)(https://i.loli.net/2020/10/14/1d8JTDwoC3jEpeS.png)]
從上圖可以看到,SLR 機制不需要使用者干預,只要擁有某個產品管理許可權的子使用者,就可觸發相應產品的 SLR 建立,同時修改和刪除也都受到嚴格的控制,避免誤操作。

目前已經有多達 36 款產品支援 SLR,下半年還會有更多產品支援,屆時跨服務自動化訪問在阿里雲上將不再是問題。

OpenAPI 訪問合規

針對合規領域,常見的場景一般是需要操作審計和資源審計,不過行業監管規則也是一個重要的參考因素。例如在金融雲行業,跨網路的呼叫必須在可控、安全的情況下才能發生,這就要求雲上網路呼叫要符合監管要求。

針對這樣的客戶需求,阿里雲升級了 OpenAPI 訪問合規能力,如下圖所示:

image.png

過去客戶訪問 OpenAPI 無論如何都會按照圖中上面那條流向經過公網。而如果客戶需要在 VPC 網路訪問阿里雲 OpenAPI,現在可以當在公有云環境中呼叫 OpenAPI 的時候將目標 endpoint 改為 xxx-vpc.[RegionId].aliyuncs.com 的形式,則發往這個目標域名的所有流量都將在阿里雲內部通訊,不再流向公網,大大增強了特定行業的安全性。

總結

自動化能力是企業規模化上雲的重要課題,即使是中小公司也能夠從自動化中受益。一方面企業要根據自身情況選擇合適的整合工具,另一方面在上雲前好做好人財物權法相關的規劃設計。阿里雲將不斷提升雲上企業自動化能力,幫助客戶取得商業成功。
原文地址