【專案分析】到底哪裡出現了問題
阿新 • • 發佈:2019-01-24
故事發生在8月11日的某個上午,上午的9:00-11:00會有公司組織的全國的線上的考試,當時出現了問題,問題表現:當時使用者登陸之後,請求反映一直很慢,登陸可以成功,登陸的過程很慢,頁面反映就直接卡住了。
當時的反應是,使用者服務在Nginx上直接faild,然後nginx也掛掉了。但是同事解決的辦法是,Java同事重啟了使用者服務,於此同時,運維同事重啟了nginx伺服器,然後考試恢復了正常,保證了整場考試順利執行下來。
問題解決之後,但是到底是哪個環節出現了問題,大家都說不清楚。當初過程中,啟動了nginx,然同事啟動了使用者服務,所以到底哪裡出現了問題,成為了未知?接下來的一週,基本上都圍繞在排查問題上。
一,當時負載很高,然後最後掛掉
二,使用者服務當時確實當掉了一個節點,著重分析當時的使用者請求量,哪些介面的響應時間長。同時日誌分析,監控每段時間的使用者請求量,介面響應時長,最後分析出來部分的介面。
但是最後並未找到確切的證據。最後開始從access_logs日誌查起來,但是當時並未找到錯誤日誌,一切都陷入了未知的困境。
三,週三再次發生狀況
週三下午1:00左右,又出現了使用者不能夠登陸,所有的服務都響應不了的狀況,大約持續了將近1個小時,