1. 程式人生 > >關於阿裏雲OSS故障排查解決,以及經驗總結

關於阿裏雲OSS故障排查解決,以及經驗總結

family spa 經驗總結 需要 至少 聯系 訪問 宋體 ces

背景描述

在2018年1月22日星期一,早上發現部署在阿裏雲所有服務無法訪問,登錄到阿裏雲控制臺,首先查看SLB負載均衡器狀態,發現所有公網負載均衡器被停用,專網負載均衡器工作正常。電話聯系阿裏雲客服,告知阿裏雲欠費,我們的負載均衡器都是按量付費模式,因欠費所以被停用,立刻向阿裏雲進行充值,暫時解決問題。


需要解決的問題

  1. 阿裏雲賬戶就在前兩天還有充足的余額,為什麽突然欠費?費用產生原因?

備註:因為部署到阿裏雲業務剛上線,還沒有正式啟用,還沒有做監控。另外阿裏雲賬號綁定手機在其它人手中,所以阿裏雲短信通知沒有收到。


排查過程

  • 首先查看阿裏雲消費記錄,發現OSS對象存儲每1小時扣費10到30元不等(大部分是在20以上),持續時間從2018年1月16日星期二晚上17點過開始,一直到2018年1月20日星期六早上9點,余額為0。

備註:OSS對象存儲也是按量付費,如下圖所示

技術分享圖片

  • 查看OSS管理平臺,發現流出流量達到4.5TBGET請求達到2600多萬次,但OSS所有對象加一起不超過400個對象,總大小不超過100M,如何產生如此巨大流量。第一反應是被惡意攻擊,然後通過OSS控制臺熱點統計分析,發現流量都來自於阿裏雲,並且都來自於一個省(也正是所購買阿裏雲ECS所在省),再通過文件訪問統計發現所有訪問都指向同一張圖片,每天產生1T2T的流量,此時已經懷疑是業務造成。

技術分享圖片

技術分享圖片

  • 檢查需要調用這張圖片的服務,最終發現有一個服務一直在死循環調用這張圖片,並且走的是OSS公網接口地址,所以產生了公網流量


解決方法

更改A業務代碼,如果出現上述情況,將輸出一個業務上的

ERROR,此消息作為正常消費處理。業務描述:MQ會往A業務上面推送消息,然後A通過消息內的數據去獲取兩張圖片作對比,首先獲取的就是OSS對象存儲裏面的圖片,此時獲取成功,然後再獲取另外一張圖片,因圖片不存儲,導致獲取失敗,然後MQ認為此消息沒有被正常消費,所以又導致重新推送,如此循環


番外篇

為大量的請求,導致出錯的業務所在服務的日誌文件不斷的增大,最後服務器空間在2018121日星期日早上9點爆滿,另外在欠費時間點後的所有請求都是失敗請

技術分享圖片

技術分享圖片

總結

  • 監控很重要,包括對服務器基本信息的監控,web站點的監控,如果做到了這兩個至少可以做到問題早發現,或者有助於排查問題,不至於如此被動,教訓啊!!!


關於阿裏雲OSS故障排查解決,以及經驗總結