1. 程式人生 > 實用技巧 >如何量化平臺穩定性?——我的運維積分計劃

如何量化平臺穩定性?——我的運維積分計劃

各位運維人員都要處理故障,那大家覺得有沒有必要把故障的“量”定義出來哪?

現階段是無論出現多少故障,我們的內部/外部客戶都覺得故障太多,而我憑感覺總覺得自己已經盡力做好了。

如果我們運維水平符合某個標準則某月的工作就是合格,不符合某個標準就是工作不合格,這樣多好?

於是我就做一個運維積分計劃,通過這個積分計劃,我從客戶感受的角度把每月的故障率用積分數字統計出來。如果當月積分比上月積分低,那就說明本月比上月平臺穩定性有改善;如果我們跟客戶約定每月積分不超過100分則為合格,那他們也就沒必要在每次小故障後都特別敏感特別激動了。

接下來我們舉一個詳細的範例說明技術人員該如何去記錄問題積分列表

註釋1:這個編號是用年月日+01/02/03/04的格式進行記錄的,通過這個記錄我們可以知道大概故障時間,且將來進行年度排表時編號不會重複。
註釋2:在本案例中,雖然我們只用3分鐘處理了故障,但故障耗時3分鐘,我們登入到服務區耗時兩分鐘,所以這個故障客戶體驗到的是8分鐘的故障時間。
註釋3:在本案例中,因為是網路問題,責任不在公司內部,故障扣分打三折。
註釋4:在本案例中,因為是非工作時間問題,故障降級處理,降級後扣分再打三折
註釋5:重啟tomcat需要超過一分鐘的時間,所以故障應該是B級別,但重啟作業發生在非業務時段,就降級為A級別,而且提前通知過相關人等,扣分減半後四捨五入仍然是1分。

轉載於:https://blog.51cto.com/caoyameng/849565