資源管理系統
RMS(Resource Management System)是基於Tecs Director 和Tecs Openstack的資源管理系統。所處位置如下:
- 最底層是Tecs OpenStack,這個沒啥說的就是管理硬件資源
-
-
-
資源回收:兩種場景,用戶自行釋放資源,租約到期管理員強制回收。資源回收的操作就是調用Director的API刪除相應環境資源的所有虛機
-
任務管理:主要就是一個定時任務去同步Director上創建的VDC以及相應的資源信息到RMS上進行入庫,用戶申請的時候首先查詢RMS的表裏是否有數據,再去執行創建。
-
資源監控:監控一套PaaS應用的狀態,這是一個組合概念。包括環境是否在用(所有虛機運行正常),空閑(所有虛機正常但長期不用或者未分配給用戶),異常(有某些虛機出現異常,環境不可用)。
-
資產管理:就是一個簡單的資產信息登記管理,方便統計資產的使用率,資產狀況等。
- RMS API:對外提供資源查詢、申請、回收的API
-
一、資源結構模型
1、概念和術語說明
英文縮寫 中文含義 解釋 DC(Data Center)
數據中心 數據中心是這樣一種設施,它被設想用來為一個或多個組織安置、管理、支持那些被認為至關重要的計算、網絡和存儲資源。在OES的機房管理使用的Director中,有上海、西安、深圳三個數據中心 vDC(Virtual Data Center) 虛擬數據中心 director上是一組虛擬資源的容器, 是TECS向租戶提供資源的基本單位。可以理解對應1套測試環境:UME項目可以對應一整套PaaS環境(含Gbase等第三方的工具在內)所需要分配的資源;EMS項目可以對應一整套EMS環境(EMS\ICM\ZDC\OMMR\OMMB以及對應的網元模擬器)。VDC的資源大小可能不是固定的,會隨著應用的資源消耗增加而改變。 Cloud environment 雲環境 對應是TECS,1套雲環境對應就是1套TECS環境 2、環境資源模型
說明:
a. 一個DC包含多套雲環境(Tecs),一套雲環境會劃分多個vDC(Tecs租戶),一個vDC會部署一套PaaS環境或者一套EMS環境。
b. 一套PaaS目前只部署一套UME,以後PaaS支持多租戶後會部署多套UME
c. 一套EMS環境會包含EMS,OMM,ICM,ZDC
3、物理資源模型
說明:
a. 一個DC包含多套雲環境(Tecs),一套雲環境對應一個刀框,一個刀框多塊刀片,一塊刀片對應一種用途
b. 一套磁陣有多塊磁盤,一套磁陣可供多個刀框共享使用
c. 一塊刀片會對應一種用途,一套磁陣會對應多種用途
(1)刀框:
刀框編號 刀框類型 刀片數量 CPU 內存 管理IP 數據中心 采購時間 資產編號 ZX-CS-001 ZTE-E900 16 900G 2000G 10.62.123.11 上海 2017-10-11 ZX-55624983 (2)刀片
刀片編號 刀片類型 管理IP 使用狀態 數據中心 采購時間 資產編號 ZX-CS-001 BL460c 10.62.123.13 已用 上海 2017-10-11 ZX-55621212 (3)磁陣
磁陣編號 磁陣類型 磁盤數量 容量 管理IP 數據中心 采購時間 資產編號 ZX-Rack-001 ZTE-KS3200 24 12000G 10.62.123.12 上海 2017-10-11 ZX-55624212 (4)用途
用途編號 項目 用途分類 使用方式 刀框編號 刀片數量 磁陣編號 使用時間 201705225 UME PT/ST/FT/開發聯調/項目集成 VM/裸金屬 ZTE-E900 3 ZX-Rack-001 2017-10-15 說明:
a. 刀框、刀片都要有統一的編號,刀框要和雲環境對應。刀框和刀片對應。
b. 刀框、刀片、磁陣在采購之後先通過RMS錄入系統,然後根據使用用途規劃設備使用
二、數據監控:雲環境使用率(實際是雲環境的CPU,內存)
序號 數據中心 雲環境 CPU總量 內存總量 CPU剩余量 內存剩余量 CPU使用率 內存使用率 01 上海 SH_UME_ZX_01 1540 3519 0 204 100% 94% 三、物理資源規劃:物理設備可以按照需求進行劃分環境使用情況
序號 問題 解決思路 備註 1 PaaS資源提供給團隊之後,如何避免團隊私自重建PaaS,
使得RMS環境統計不準確?
PaaS網絡監控,發現IP不通時間超過一設定值或者
PaaS的版本號與RMS管理不一致,則將該IP禁止訪問。
PaaS環境網絡是我們監控PaaS是否一直
提供服務的判斷條件。另外PaaS的版本也
要與RMS管理一致。
2 有些團隊申請比較多的資源,資源是否真正使用了,
使用了多少,能否有數據說話?
對環境的數據進行監控和統計,關於占有率問題,可以把數據統計之後,
先人工分析和觀察,再制定資源回收的規則.
環境 1周資源占用率 最近3天訪問用戶數 使用團隊 1 CPU/內存/存儲占用/IO的流量 用戶訪問環境的紀錄 團隊名稱 2 .. ... .. 以UME的CI流水線為基準,統計分析PaaS對資源的占用率
1)OKI對CI流水線資源的規劃數據,比如CPU、內存的分配
2)監控CI流水線實際運行過程中對物理資源占用情況,CPU、內存、存儲
3)通過監控數據和規劃數據對比,分析出規劃資源是否合理
4)要能夠把數據按照PaaS版本進行統計和匯總,做歷史對比,比如半年數據對比
王慶帥10103088 蘇高波10227238 石勇10159532 顧誼10183302
VDC名稱 使用用戶 版本號 數據中心 開始時間 結束時間 CPU平均 CPU峰值 內存平均 內存峰值 單套環境數據:
通過資源占有率和用戶訪問數據為依據,
判斷環境是否有人使用,以及使用的頻次.
如果數據低於設定值,資源團隊可以考慮
回收資源.
匯總數據:
3 提供的環境,如何監控環境是否正常運行? -
資源管理系統