greenplum 集群故障(Sorry,too many clients already )排查：

阿新 • • 發佈：2018-09-27

設置 actions nts -m max sorry resources activity 鏈接

故障現象：

1：所有業務調度任務執行失敗；
2：手動測試無法連接數據庫；
3：並沒有收到集群的異常告警；

處理步驟：

1：首先登陸 gpcc 查看集群狀態；
 發現所有greenplum 節點及服務都正常，但是屏幕打印報錯信息 ：Sorry,too many clients already (alert)

2：在master節點通過gpstate -s和查看/usr/local/gpdata/gpmaster/gpseg-1/pg_log/gpdbxxxxxx.csv日誌，都可以看到以下報錯信息

"ERROR","58M01","failed to acquire resources on one or more segments","FATAL: sorry, too many clients already.

Performance Monitor - failed to connect to gpperfmon database: FATAL:  sorry, too many clients already.

登陸服務器查看集群狀態：

gpstate -b =》 顯示簡要狀態 

gpstate -f =》 顯示備用主機詳細信息  

gpstate -m =》 顯示鏡像實例同步狀態  

gpstate -Q =》 快速檢查主機狀態  

確認集群節點無異常！

調整集群最大連接數

此時基本確定集群連接數過多導致，準備使用殺掉連接解決問題，但是數據庫集群已經無法連接，使用gpconfig 命令修改；

主要修改參數如下：

max_connections :最大連接數，Segment建議設置成Master的5-10倍。

查看現有配置值：
gpconfig -s max_connections

GUC : max_connections
Master value: 250
Segment value: 750

#### 修改配置
gpconfig -c max_connections -v 2000 -m 500

max_prepared_transactions
這個參數只有在啟動數據庫時，才能被設置。它決定能夠同時處於prepared狀態的事務的最大數目（參考PREPARE TRANSACTION命令）。如果它的值被設為0。則將數據庫將關閉prepared事務的特性。它的值通常應該和max_connections的值一樣大。每個事務消耗600字節(b)共享內存。

查看現有配置值：
gpconfig -s max_prepared_transactions
Values on all segments are consistent
GUC          : max_prepared_transactions
Master  value: 250
Segment value: 250
修改配置
gpconfig -c max_prepared_transactions  -v 500

修改參數後，重啟數據庫生效

關閉數據庫 ：gpstop -M fast  -a
快速啟動：   gpstart -a

驗證配置是否生效：

gpconfig -s max_connections
gpconfig -s max_prepared_transactions

數據啟動後，已經可以正常使用！此時涉及的數據庫沒有涉及在線業務，所有直接重啟了。

使用超級用戶登陸，處理步驟參考：

# su - gpadmin
psql -d postgres

查看所有的連接；
postgres=# SELECT * FROM pg_stat_activity;

執行以下命令查看當前的總連接數：

psql -d postgres -c "select count(*) from pg_stat_activity"

查看第2步檢查到的報錯庫的連接數：

psql -d postgres -c "select count(*) from pg_stat_activity where datname = ‘pt_roi‘"

通過以下命令來斷開報錯的庫的連接，釋放資源：

SELECT pg_terminate_backend(pg_stat_activity.procpid) FROM pg_stat_activity WHERE pg_stat_activity.datname = ‘ $(DATABASES)‘ AND procpid <> pg_backend_pid();

問題的原因分析：

1：新業務服務沒有經過測試就上線，產生大量的異常鏈接，導致數據庫鏈接被沾滿；
2：數據庫連接沒有做監控告警，導致連接被占滿後才知道，需要添加連接數監控告警，大於正常數出發告警，提前處理；
3：調整數據庫任務、網絡鏈接超時時間，防止大量網絡連接不能斷開；

greenplum 集群故障(Sorry,too many clients already )排查：

設置 actions nts -m max sorry resources activity 鏈接故障現象： 1：所有業務調度任務執行失敗； 2：手動測試無法連接數據庫； 3：並沒有收到集群的異常告警；處理步驟： 1：首先登陸 gpcc 查看集群狀態；發現所有gre

Bug之nested exception is org.postgresql.util.PSQLException: FATAL: sorry, too many clients already

PostgrSQL的連線數過多，修改一下預設的連線數 https://stackoverflow.com/questions/2757549/org-postgresql-util-psqlexception-fatal-sorry-too-many-clients-already

藍的成長記——追逐DBA（18）：小機上WAS集群故障，由一次更換IP引起

linu 是我單點看到了做事 window 可能 fontsize error_log 原創作品。出自 “深藍的blog” 博客，歡迎轉載，轉載時請務必註明出處。否則追究版權法律責任。深藍的blog：http://blog.csdn.net/huangyanlo

使用pgpool管理數據庫集群故障的問題

文件中 -1 結構數據庫數據 mod 遍歷 words esc pgpool如何選舉master角色在pgpool啟動的過程中通過對 pgpoo.conf配置文件中的數據庫節點條目信息，對集群中的數據庫節點從0開始一個個的遍歷，並發送SQL語句“select pg_i

使用kubeadm安裝k8s集群故障處理三則

使用網上 ack uber == 聯網 ice init etc 最近在作安裝k8s集群，測試了幾種方法，最終覺得用kubeadm應該最規範。限於公司特別的網絡情況，其安裝比網上不能訪問google的情況還要艱難。慢慢積累經驗吧。今天遇到的三則故障記下來作參考

greenplum集群安裝與增加節點生產環境實戰

greenplum greenplum集群 greenplum集群安裝與增加節點生產環境實戰1.準備環境1.1集群介紹系統環境：centos6.5數據庫版本：greenplum-db-4.3.3.1-build-1-RHEL5-x86_64.zipgreenplum集群中,2臺機器IP分別是[root

雲計算之路-阿裏雲上-容器難容：容器服務故障以及自建 docker swarm 集群故障

故障基本 pos 應用雲上灰色很大的 lead leader 3月21日，由於使用阿裏雲服務器自建 docker swarm 集群的不穩定，我們將自建 docker swarm 集群上的所有應用切換阿裏雲容器服務 swarm 版（非swarm mode）。 3月2

管理使用Greenplum集群

greenplum1. 管理使用Greenplum集群 1.1 啟動Greenplum數據庫 $ gpstart -a 1.2 對於要求重啟數據庫生效 $ gpstop -r 1.3 僅重新載入更改配置文件生效 $ gpstop -u 1.4 維護模式啟動Master 使用-m模式運行gpstart： $ g

Redis的集群(故障轉移)

全量 tex 關註是否 ont val start 事件 neu Redis集群自身實現了高可用，當集群內少量節點出現故障時通過自動故障轉移保證集群可以正常對外提供服務。故障發現1. 主觀下線當cluster-node-timeout時間內某節點無法與另一個節點順利完成p

greenplum 集群安裝配置（生產環境）

type usr lease 下一條 mark access 慎用 guid listen 集群系統初始化信息： http://blog.51cto.com/michaelkang/2167195 本文對敏感信息進行了替換！！！！下載軟件包： cd /workspace/

GreenPlum 集群常用命令

spa 生效一起允許 UNC fas 常用 view 流程 GreenPlum 常用命令 gpstate 命令參數作用 gpstate -b => 顯示簡要狀態 gpstate -c => 顯示主鏡像映射 gpstart -d =>

greenplum 集群新增 standby節點

stat running path oca key 直接 ges 過程變量 greenplum 單獨添加 standby 本文主要介紹如何為沒有做Standby的Master節點添加Standby。（快速整理版）舊版本gp集群需要註意！！！！在為Master節點搭建S

ES集群故障排查記錄

get tsp 報錯天線慢查詢 unable 應該記錄放棄這兩天線上的ES集群總是有問題，開始查找原因發現這段時間各個機器的負載都很高，本來希望通過jstack找到一些信息，但居然提示‘Unable to open socket file: target proc

ceph 集群報 mds cluster is degraded 故障排查

ceph 故障排查 mds degraded ceph 集群報 mds cluster is degraded 故障排查ceph 集群版本：ceph -vceph version 10.2.7 (50e863e0f4bc8f4b9e31156de690d765af245185)ceph -w

MHA 故障庫恢復到集群 python腳本

進行 gre 節點 logfile art health base ddd nbsp #!/usr/bin/env python#! _*_ coding:utf-8 _*_ import os,re,time #註請把故障庫啟動後再執行此腳本 #1.獲取mha日誌中

部署AlwaysOn第三步：集群資源組的健康檢測和故障轉移

exe htm 有一個監控器 name 檢查 oar ges 包含資源組是由一個或多個資源組成的組，WSFC的故障轉移是以資源組為單位的，資源組中的資源是相互依賴的。一個資源所依賴的其他資源必須和該資源處於同一個資源組，跨資源組的依賴關系是不存在的。在任何時刻，每個資源

部署AlwaysOn第一步：搭建Windows服務器故障轉移集群

了解用戶文件所有結點 msdn settings nes 查看 sta 在Windows Server 2012 R2 DataCenter 環境中搭建集群之前，首先要對Windows服務器故障轉移集群（Windows Server Failover Cluster，

在Windows Server 2012 R2中搭建SQL Server 2012故障轉移集群

鏈接 clust 但是關於集群 dtc p s fail base 需要說明的是我們搭建的SQL Server故障轉移集群（SQL Server Failover Cluster）是可用性集群，而不是負載均衡集群，其目的是為了保證服務的連續性和可用性，而不是為了提高服務

Windows 2012 系統搭建高可用故障轉移集群

row 配置過程 font 部署登陸 mod style lis 域環境 Windows 2012 系統搭建高可用故障轉移集群一、故障轉移集群介紹 21.1 系統介紹 21.2 工作原理 2二、實驗目的 22.1 驗證故障轉移功能 22.2 驗證高可用集群的可用性，以及支

【case study】兩個redis cluster集群拓撲混掉故障處理

交換 node cluster -i cas 處理過程基本背景相同【背景】 XXX服務，前後使用了兩個redis cluster集群：集群A（2018.1.23前使用，在1.23之後沒有流量，但是服務沒停），集群B（2018.1.23後使用）。

greenplum 集群故障(Sorry,too many clients already )排查：

處理步驟：

登陸服務器查看集群狀態：

調整集群最大連接數

修改參數後，重啟數據庫生效

驗證配置是否生效：

使用超級用戶登陸，處理步驟參考：

問題的原因分析：

相關推薦