Linux - 阿里雲:記錄一次低配 ecs 伺服器在 cpu、記憶體打滿情況下無法遠端連線的解決過程
阿新 • • 發佈:2021-10-30
背景
自我學習ing..然後在 1c2g 的雲伺服器上起了 5 個 mysql 叢集節點,然後輸入命令就開始卡了,開始懷疑是不是系統資源爆掉了
來到阿里雲後臺
- 因為伺服器已經連不上了,沒辦法通過 top 等命令檢視系統資源情況,只能來到控制檯查看了
- 然後就看到 CPU、記憶體都被打爆了...系統負載節節攀升(下圖是解決之後的截圖了)
嘗試解決一
- 重啟機器,嘗試本地重新 ssh 連線:超時失敗
- 通過阿里雲 workbench 遠端連線:超時失敗
嘗試解決二
- 通過阿里雲提供的傳送遠端命令(雲助手)嘗試把 docker 關掉:仍然失敗
- 即使將遠端命令設定為啟動執行,重啟機器:仍然失敗
- 從下圖二可以看出,仍然是連線機器超時導致的
嘗試解決三
- 無法解決之後,只能連線人工客服,告知我可以通過連線 VNC 來嘗試解決,因為 VNC 的方式是不受遠端連線的影響的
- 我自己連線 VNC 仍然沒連上,最後是通過客服小哥哥/小姐姐幫我搞定了
罪魁禍首
- 機器本身配置最低,然後還起了 5 個數據庫叢集節點,直接把機器打掛了
- 根因一:docker 服務使用了開機自啟動sudo systemctl enable docker,導致每次重啟機器的時候,docker 服務仍然啟動
- 根因二:起的 5 個數據庫容器都添加了隨 docker 服務啟動而自啟動...--restart=always
最後的解決方法
客服小哥哥/小姐姐幫我殺掉了 docker 服務,然後禁止了開機自啟動
仍然有個問題
如果此時我直接 start docker 仍然沒有解決根因二帶來的問題
最終解決方案
需要手動到每個容器配置檔案中去掉 restart 引數值