ES集群故障排查記錄

阿新 • • 發佈：2019-05-11

get tsp 報錯天線慢查詢 unable 應該記錄放棄

這兩天線上的ES集群總是有問題，開始查找原因
發現這段時間各個機器的負載都很高，本來希望通過jstack找到一些信息，但居然提示‘Unable to open socket file: target process not responding or HotSpot VM not loaded’，度娘提示
應該是機器很久沒有重啟了，沒辦法，只能放棄這種方式。第一步就沒有走通。
繼續查發現幾臺機器 cpu 內存都很高，但是硬盤不太對勁，有一臺機器硬盤使用下降的厲害，而另外幾臺硬盤使用都是上升的，初步判斷是這臺機器出現問題後，開始轉移分片導致，
登錄到這臺機器，查找日誌，發現很多報錯，直覺告訴我很可能是這臺機器，拖垮了集群，報錯的內容大致是，無法與主節點建立連接。繼續查為什麽這臺機器會好好的失聯了呢，

繼續看監控，發現網絡io沒有特別的變化，應該不是大批量的訪問造成的，但是線程數卻增加的很厲害，突然想到ES還有一個慢查詢的日誌，翻看一看，果然有幾個查詢，特別耗時
有的甚至達到了2分鐘才返回結果，至此初步判斷是這種耗時的查詢，壓垮了這臺機器。讓對應的業務修改完後，繼續觀察。

ES集群故障排查記錄

get tsp 報錯天線慢查詢 unable 應該記錄放棄這兩天線上的ES集群總是有問題，開始查找原因發現這段時間各個機器的負載都很高，本來希望通過jstack找到一些信息，但居然提示‘Unable to open socket file: target proc

ES集群故障排查記錄

ES集群故障排查記錄

greenplum 集群故障(Sorry,too many clients already )排查：

藍的成長記——追逐DBA（18）：小機上WAS集群故障，由一次更換IP引起

使用pgpool管理數據庫集群故障的問題

使用kubeadm安裝k8s集群故障處理三則

雲計算之路-阿裏雲上-容器難容：容器服務故障以及自建 docker swarm 集群故障

K8S 日誌收集（三）：ES 集群安裝

Centos7下ELK+Redis日誌分析平臺的集群環境部署記錄

Oracle11.2.0.4-Rac集群hang分析記錄

elasticsearch系列八：ES 集群管理（集群規劃、集群搭建、集群管理）

elasticsearch(es) 集群恢復觸發配置（Local Gateway參數）

Redis的集群(故障轉移)

自己動手之k8s etcd ssl集群部署操作記錄

ES集群修改index副本數報錯：index read-only / allow delete

ES 集群關鍵狀態指標

Python Elasticsearch API操作ES集群

es集群搭建

ES集群部署及調優

es集群數據庫~基本安裝

ELasticSearch（五）ES集群原理與搭建

ES集群故障排查記錄

相關推薦