1. 程式人生 > >ES集群故障排查記錄

ES集群故障排查記錄

get tsp 報錯 天線 慢查詢 unable 應該 記錄 放棄

這兩天線上的ES集群總是有問題,開始查找原因
發現這段時間各個機器的負載都很高,本來希望通過jstack找到一些信息,但居然提示‘Unable to open socket file: target process not responding or HotSpot VM not loaded’,度娘提示
應該是機器很久沒有重啟了,沒辦法,只能放棄這種方式。第一步就沒有走通。
繼續查發現幾臺機器 cpu 內存 都很高, 但是硬盤不太對勁,有一臺機器硬盤使用下降的厲害,而另外幾臺硬盤使用都是上升的,初步判斷是這臺機器出現問題後,開始轉移分片導致,
登錄到這臺機器,查找日誌,發現很多報錯, 直覺告訴我很可能是這臺機器,拖垮了集群,報錯的內容大致是,無法與主節點建立連接。繼續查為什麽這臺機器會好好的失聯了呢,
繼續看監控,發現網絡io沒有特別的變化, 應該不是大批量的訪問造成的,但是線程數卻增加的很厲害,突然想到ES還有一個慢查詢的日誌,翻看一看,果然有幾個查詢,特別耗時
有的甚至達到了2分鐘才返回結果,至此初步判斷是這種耗時的查詢,壓垮了這臺機器。讓對應的業務修改完後,繼續觀察。

ES集群故障排查記錄