1. 程式人生 > 其它 >電商系統-運維中臺

電商系統-運維中臺

運維中臺

做好災備

災備是應對大型故障的保底措施,最好的結局是永遠不要觸發,但是大促前需要做好災備切換演練,可以選擇大促前使用者量少的時間段進行:

  1. 前期準備:兩地災備程式同步維護,大促相關的迭代和活動專題上線確保兩地測試ok,映象版本統一
  2. 資料庫配置兩地主從,或雙主單寫。切換前做好資料同步性檢查
  3. 啟用指令碼,切換代理伺服器,代理流量轉入災備機房,正式環境還需要處理dns指向
  4. 分散式檔案災備日常採用rsync等實時同步,採用雲端儲存的可以忽略
  5. es索引等其他資料確保日常同步
  6. 注意掛好維護頁,友好提示
  7. 配備自動化測試指令碼以便快速驗證切換結果

配備監控

1)基礎設施監控

包括物理機、Docker 容器、以及對交換機、IP 進行監控

藉助zabbix等開源軟體對機器資源配置監控,如果採用雲化部署,各大雲供應商都會配備完善的監控機制

2)應用級監控

主動監控,日誌或訊息佇列形式打點輸出,定時彙報 (日誌平臺追蹤課題)

被動監控,新增監控介面,監控系統定時請求確認可用性

3)業務監控

對具體業務點做監控處理,如訂單量、登入量、註冊量、某些頁面的訪問量等關鍵點採用非同步訊息方式推送到監控中心,監控中心針對特定佇列的資料做統計和展示。

4)客服一線反饋

主動監控依然無法察覺的情況下,來自客服的一線反饋成為最後關卡。優先順序也最高。開發故障快速響應平臺,做到實時性保障。做到客服 - 業務線 - 產品 - 技術排查的及時響應,快速排查。

資源盤點

1)網路設施擴容

網路頻寬是影響訪問流量的重要因素,做好各個機房網路頻寬預估,資料在兩地機房間傳輸並且要求低延遲的場景,如資料庫主從,可以考慮機房專線。使用公有云的服務,可以購買臨時流量。

2)硬體資源盤點

對容量做預估和硬體資源盤點。配合大促期間不同服務的架構設計,以及專案本身的特性,對cpu,記憶體做評估。偏運算的專案,重度使用多執行緒的專案偏cpu,需要大量物件或集合處理的專案偏記憶體。

3)容器盤點

所有專案容器化部署,基於映象即版本理念,打好各個服務的映象是docker快速複製擴容的基礎。大促前對各個中心微服務做統計和盤點。

藉助k8s,快速實現容器的伸縮。

每個人都有潛在的能量,只是很容易被習慣所掩蓋,被時間所迷離,被惰性所消磨~