關於阿裏雲OSS故障排查解決,以及經驗總結
在2018年1月22日星期一,早上發現部署在阿裏雲所有服務無法訪問,登錄到阿裏雲控制臺,首先查看SLB負載均衡器狀態,發現所有公網負載均衡器被停用,專網負載均衡器工作正常。電話聯系阿裏雲客服,告知阿裏雲欠費,我們的負載均衡器都是按量付費模式,因欠費所以被停用,立刻向阿裏雲進行充值,暫時解決問題。
需要解決的問題
阿裏雲賬戶就在前兩天還有充足的余額,為什麽突然欠費?費用產生原因?
備註:因為部署到阿裏雲業務剛上線,還沒有正式啟用,還沒有做監控。另外阿裏雲賬號綁定手機在其它人手中,所以阿裏雲短信通知沒有收到。
排查過程
首先查看阿裏雲消費記錄,發現OSS對象存儲每1小時扣費10到30元不等(大部分是在20以上),持續時間從2018年1月16日星期二晚上17點過開始,一直到2018年1月20日星期六早上9點,余額為0。
備註:OSS對象存儲也是按量付費,如下圖所示
查看OSS管理平臺,發現流出流量達到4.5TB,GET請求達到2600多萬次,但OSS所有對象加一起不超過400個對象,總大小不超過100M,如何產生如此巨大流量。第一反應是被惡意攻擊,然後通過OSS控制臺熱點統計分析,發現流量都來自於阿裏雲,並且都來自於一個省(也正是所購買阿裏雲ECS所在省),再通過文件訪問統計發現所有訪問都指向同一張圖片,每天產生1T到2T的流量,此時已經懷疑是業務造成。
檢查需要調用這張圖片的服務,最終發現有一個服務一直在死循環調用這張圖片,並且走的是OSS公網接口地址,所以產生了公網流量
解決方法
更改A業務代碼,如果出現上述情況,將輸出一個業務上的
番外篇
因為大量的請求,導致出錯的業務所在服務的日誌文件不斷的增大,最後服務器空間在2018年1月21日星期日早上9點爆滿,另外在欠費時間點後的所有請求都是失敗請求。
總結
監控很重要,包括對服務器基本信息的監控,web站點的監控,如果做到了這兩個至少可以做到問題早發現,或者有助於排查問題,不至於如此被動,教訓啊!!!
關於阿裏雲OSS故障排查解決,以及經驗總結