Postgresql主從非同步流複製方案的深入探究
前言
資料庫的備份工作在日常生產中極為重要,如果你諮詢一個DBA如何才能設計出高可用的資料備份與恢復方案,相信很多人都會從架構上給出很多容災的意見。但歸根到底,如果業務環節中資料庫還牽涉到分散式環境,我認為一個好的方案需要達到三大要求:
- 多副本
- 持久化
- 一致性
日常架構設計中,我們不僅要保證資料額的成功備份,還要保證備份的資料可以快速恢復。在眾多備份恢復可靠性方案中 主從複製 技術,可以說是最常見的實現,本文主要是介紹postgresql主備資料庫的非同步流複製的環境搭建與主備切換的操作實踐,除了能把一些基礎的原理運用在日常的資料庫運維中,也可以加深對Postgresql資料庫的底層知識瞭解。
postgres在9.0之後引入了主從的流複製機制,所謂流複製,就是從伺服器通過tcp流從主伺服器中同步相應的資料。這樣當主伺服器資料丟失時從伺服器中仍有備份。
與基於檔案日誌傳送相比,流複製允許保持從伺服器更新。 從伺服器連線主伺服器,其產生的流WAL記錄到從伺服器, 而不需要等待主伺服器寫完WAL檔案。
PostgreSQL流複製預設是非同步的。在主伺服器上提交事務和從伺服器上變化可見之間有一個小的延遲,這個延遲遠小於基於檔案日誌傳送,通常1秒能完成。如果主伺服器突然崩潰,可能會有少量資料丟失。
同步複製必須等主伺服器和從伺服器都寫完WAL後才能提交事務。這樣在一定程度上會增加事務的響應時間。
下面的學習與實踐主要針對PostgreSQL的非同步流複製(本文沒有涉及到同步複製、邏輯複製等,如果大家想了解其它的備份方案,可以閱讀相關官方文件或其他資料介紹)。
非同步流複製的中心思想是:主庫上提交事務時不需要等待備庫接收WAL日誌流並寫入到備庫WAL日誌檔案時便返回成功,因此非同步流複製的TPS會相對同步流複製要高,延遲更低。
環境準備
作業系統 | 伺服器IP | 節點名稱 | 角色 |
---|---|---|---|
centos 7.2 | 172.17.0.2 | pghost1 | 主庫 |
centos 7.2 | 172.17.0.5 | pghost2 | 備庫 |
主要目錄規範:
- 資料目錄: /data/pg10/pg_root
- 表空間目錄: /data/pg10/pg_tbs
- 應用程式目錄: /apps/svr/pgsql
要注意的是:編譯安裝Pg我們使用的是root賬戶,但是一般情況下,我們對資料庫的部署操作等應該使用非root的pg超級管理員賬戶,所以需要我們預先建立相關使用者和目錄,並設定相關許可權:
$ groupadd postgres $ useradd postgres -g postgres $ passwd postgres $ mkdir -p /data/pg10/pg_root $ mkdir -p /data/pg10/tbs $ chown -R postgres:postgres /data/pg10
實驗用的postgresql為10.0版本
pghost1 和 pghost2 分別下載該版本的原始碼安裝包
wget https://ftp.postgresql.org/pub/source/v10.0/postgresql-10.0.tar.gz
下載後進行解壓
tar -zxvf postgresql-10.0.tar.gz
安裝前依賴
由於 configure過程中依賴作業系統包zlib、readline等,所以我實用yum預先安裝:
yum groupinstall "Development tools” yum install -y bison flex readline readline-devel zlib zlib-devel
主備庫資料庫安裝
安裝前,我們先分別對pghost1 和 pghost2建立postgresql的偏好環境變數
vi /etc/profile.d/pgsql.sh
追加以下內容:
export PGPORT=1921 export PGUSER=postgres export PGDATA=/data/pg10/pg_root export LANG=en_US.utf8 export PGHOME=/apps/svr/pgsql export LD_LIBRARY_PATH=$PGHOME/lib:/lib64:/usr/lib64:/usr/local/lib64:/lib:/usr/lib:/usr/local/lib export PATH=$PGHOME/bin:$PATH:. export MANPATH=$PGHOME/share/man:$MANPATH alias rm='rm -i' alias ll='ls -lh'
儲存檔案,並讓環境變數生效:
source /etc/profile.d/pgsql.sh
再進入剛剛解壓的 postgresql-10.0 目錄中,執行以下命令:
./configure —prefix=/apps/svr/pgsql_10.0/ --with-pgport=1921
之後進行編譯安裝:
gmake gmake install
安裝完成後,我們可以使用以下命令確認是否安裝成功:
$ postgres --version postgres (PostgreSQL) 10.0
複製功能部署
在啟動資料庫服務搭建主從結構前,有幾個比較重要的配置檔案需要我們額外地進行建立與設定的,它們分別是:
- postgreql.conf
- pg_hba.conf
- recovery.conf
- .pgpass
下面我們會在實踐中,具體地對上述的檔案的配置進行相關說明
上一節,我們編譯安裝好了postgresql,我們接下來切換操作使用者
su postgresql
然後使用initdb工具初始化資料庫:
echo "123456" >> /data/pg10/pgpass initdb -D /data/pg10/pg_root -E UTF8 --locale=C -U postgres --pwfile=/data/pg10/pgpass
執行上述命令後,在/data/pg10/pg_root目錄下會產生系統資料檔案,
PG_VERSION pg_dynshmem pg_multixact pg_snapshots pg_tblspc postgresql.auto.conf base pg_hba.conf pg_notify pg_stat pg_twophase postgresql.conf global pg_ident.conf pg_replslot pg_stat_tmp pg_wal pg_commit_ts pg_logical pg_serial pg_subtrans pg_xact
之後我們開始配置 /data/pg10/pg_root/postgresql.conf,修改以下幾個關鍵項:
listen_addresses = '*' wal_level = replica archive_mode = on archive_command = '/bin/date' max_wal_senders = 10 wal_keep_segments = 512 hot_standby = on
注:主庫和備庫的 /data/pg10/pg_root/postgresql.conf 配置建議完全一致
接下來我們在 備庫 上配置 /data/pg10/pg_root/pg_hba.conf
host replication repuser 172.17.0.2/32 md5 host replication repuser 172.17.0.5/32 md5
其實最好主庫也配置一份,因為主庫和備庫的角色不是靜止的,在手動或庫出現故障情況下,它們的角色會互相更換。
之後,我們先啟動主庫 pghost1了 (記得切換到postgres使用者):
$ pg_ctl start -D $PGDATA ... ... database system is ready to accept connections done server started
使用PostgreSQL的超級管理員postgres登入到建立流複製使用者repuser,流複製使用者需要有 REPLICATION許可權和LOGIN許可權
$ psql -U postgres -p 1921 psql (10.0) Type "help" for help. postgres=# CREATE USER repuser REPLICATION LOGIN CONNECTION LIMIT 5 ENCRYPTED PASSWORD 'domac123'; CREATE ROLE
以上命令基本完成主庫上的配置,接下來我們需要熱備生成一個備庫,製作備庫過程中主庫仍然可以讀寫,不影響業務,我們在主庫上建立備份任務:
postgres=# select pg_start_backup('domacli_bak'); pg_start_backup ----------------- 0/2000060 (1 row)
pg_start_backup() 函式會在主庫上發起一個線上備份,命令執行後,將資料檔案壓縮拷貝到備份節點上:
$ tar czvf pg_root.tar.gz pg_root --exclude=pg_root/pg_wal $ scp pg_root.tar.gz [email protected]:/data/pg10
pg_wal目錄不是必須複製的,可以排除這個目錄,以節省空間,然後我們回到備庫的/data/pg10下,執行主庫備份檔案的解壓:
$ tar xvf pg_root.tar.gz
解壓後,我們回到主節點,執行停止備份命令,結束這次備份流程
postgres=# select pg_stop_backup(); NOTICE: pg_stop_backup complete,all required WAL segments have been archived pg_stop_backup ---------------- 0/2000168 (1 row)
以上的命令表示完成線上備份,但備庫上扔需要做一些配置,我們回到備庫上,配置 /data/pg10/pg_root/recovery.conf檔案,如果該檔案不存在,可以執行以下命令,在軟體目錄中複製一個:
cp $PGHOME/share/recovery.conf.sample /data/pg10/pg_root/recovery.conf
備庫的 recovery.conf 配置以下引數
recovery_target_timeline = 'latest' standby_mode = on primary_conninfo = 'host=172.17.0.2 port=1921 user=repuser'
主要觀察recovery.conf中的引數primary_conninfo 中的 user=repuser,還記得我們前面在主庫上建立的流傳輸使用者repuser嗎?由於主備直接資料同步需要在使用者下執行操作,而主庫上我們建立repuser的時候,為了安全我設定了密碼,但recovery.conf我們沒有配置明文密碼,那麼程式的密碼如何獲得呢?
我們建議把密碼設定在 ~/.pgpass中:
你也可以直接在上面的recovery.conf 設定 primary_conninfo = ‘host=172.17.0.2 port=1921 user=repuser password=domac123',但這樣會有安全風險
$ cd ~ $ touch .pgpass $ chmod 0600 .pgpass
填寫以下內容:
172.17.0.2:1921:replication:repuser:domac123 172.17.0.5:1921:replication:repuser:domac123
好了,當這些備註都就緒之後,我們可以開始啟動我們的備庫了:
$ pg_ctl start ... database system is ready to accept read only connections done server started
如果備庫正常啟動,我們可以在主備兩庫上觀察WAL發生與接收程序是否都同時工作,以確認非同步流工作是否正常工作
主庫上:
ps -ef | grep wal postgres 6939 6935 0 23:16 ? 00:00:00 postgres: wal writer process postgres 6983 6935 0 23:42 ? 00:00:00 postgres: wal sender process repuser 172.17.0.5(45910) streaming 0/3000140
備庫上:
ps -ef | grep wal postgres 26481 26479 0 23:42 ? 00:00:00 postgres: wal receiver process streaming 0/3000140 postgres 26486 26448 0 23:42 ? 00:00:00 grep --color=auto wal
使用 pg_basebackup 方式部署流複製
接下來,介紹一種操作相對簡潔的方式,上述我們配置操作所牽涉到的主要步驟有:
- pg_start_backup
- 兩臺伺服器之間的資料拷貝
- pg_stop_backup
以上三個步驟可以合成一步完成,PostgreSQL提供內建的pg_basebackup命令列工具支援對主庫發起一個線上基準備份,並自動進入備份模式進行資料庫基準備份,備份完成後自動從備份模式退出,不需要執行額外的pg_start_backup 和pg_stop_backup 命令顯式地宣告進入備份模式和退出備份模式,pg_basebackup工具是對資料庫例項級進行的物理備份,因此這個工具通常作為備份工具對據庫進行基準備份
pg_basebackup工具發起備份需要超級使用者許可權或REPLICATION許可權,注意max_wal_senders引數配置,因為pg_basebackup工具將消耗至少一個WAL傳送程序。本節將演示通過pg_basebackup工具部署非同步流複製,之前已經在pghost2上部署了一個備庫,我們先將這個備庫刪除,之後通過pg_basebackup工具重新做一次備庫,刪除pghost2上的備庫只需要先停備庫之後刪除備庫資料庫資料檔案即可,如下所示:
進入pghost2伺服器上(172.17.0.5)
$ pg_ctl stop -m fast waiting for server to shut down.... done server stopped $ rm -rf $PGDATA $ rm -rf /data/pg10/pg_tbs
接下來,在pghost2上,使用pg_basebackup觸發基準備份
pg_basebackup -D $PGDATA -Fp -Xs -v -P -h 172.17.0.2 -p 1921 -U repuser -W
執行後,會看到相關的日誌輸出
pg_basebackup: initiating base backup,waiting for checkpoint to complete pg_basebackup: checkpoint completed pg_basebackup: write-ahead log start point: 0/20007A8 on timeline 1 pg_basebackup: starting background WAL receiver 22655/22655 kB (100%),1/1 tablespace pg_basebackup: write-ahead log end point: 0/2000888 pg_basebackup: waiting for background process to finish streaming ... pg_basebackup: base backup completed
從以上日誌資訊看出pg_basebackup命令首先對資料庫做一次checkpoint,之後基於時間點做一個全庫基準備份,全備過程中會拷貝$PGDATA資料檔案和表空間檔案到備庫節點對應目錄
最後,跟之前使用pg_start_backup的方式一樣,備庫記得配置recovery.conf
recovery_target_timeline = 'latest' standby_mode = on primary_conninfo = 'host=172.17.0.2 port=1921 user=repuser password=domac123'
如果也配置了pgpass檔案,可以使用下屬的配置:
recovery_target_timeline = 'latest' standby_mode = on primary_conninfo = 'host=172.17.0.2 port=1921 user=repuser'
到此為止,主備的配置基本完成,當然,穩妥起見,我們最好多動手動手,嘗試在主庫上建立並插入資料,觀察備庫上是否同步這些操作,我們再主庫上建立一張表:
postgres=# create table test_ms(id int4); CREATE TABLE postgres=# insert into test_ms values(6); INSERT 0 1
主庫上,我們建立test_ms表,並插入了一條資料,我們就可以在備庫上進行查詢觀察是否同步成功:
postgres=# select * from test_ms; id ---- 6 (1 row)
接下來,我們再主庫上,再操作
postgres=# insert into test_ms values(9); INSERT 0 1 postgres=# delete from test_ms where id=6; DELETE 1
這個時候,我們發現備庫的資料也都正常同步上了:
postgres=# select * from test_ms; id ---- 9 (1 row)
那麼我們如果在備份上進行資料操作,情況會怎樣呢?我們再備份上執行:
postgres=# insert into test_ms values(6); ERROR: cannot execute INSERT in a read-only transaction STATEMENT: insert into test_ms values(6); ERROR: cannot execute INSERT in a read-only transaction
觀察這些錯誤日誌,我們可以瞭解到,非同步流主從結構中,作為從節點的備庫目前處於的是隻讀狀態,它不能進行任何寫入操作。
主備切換
前面介紹了流複製的部署,但要注意的是主庫和備庫的角色不是靜態存在的,在維護過程中可以對兩者的進行角色的切換,舉個例子,當主庫掛掉的時候,需要迅速進行主備切換,讓備庫升級為主庫,原主庫降級到備庫,主備切換是PostgreSQL高可用的基礎,下面就介紹相關的操作。
postgresql 9.0版本流複製只能通過建立檔案方式進行主備切換,9.1後,開始支援使用pg_ctl promote觸發方式,相比檔案觸發方式操作更方便
操作前,我們先介紹一個系統函式查用來判斷主備角色的方法:
postgres=# select pg_is_in_recovery(); pg_is_in_recovery ------------------- f (1 row)
如果返回 f 說明是主庫,返回 t 說明是備庫
pg_ctl promote 切換方式
我們使用以下的步驟進行主備切換:
1、關閉主庫,建議使用 -m fast 模式關閉
$ pg_ctl stop -m fast
2、在備庫上執行pg_ctl promote命令啟用備庫,如果recovery.conf變成recovery.done表示備庫已切換成主庫
pg_ctl promote -D $PGDATA waiting for server to promote....2018-09-30 00:10:30.222 UTC [26480] LOG: received promote request LOG: redo done at 0/4000028 LOG: last completed transaction was at log time 2018-09-29 23:50:52.502513+00 LOG: selected new timeline ID: 2 LOG: archive recovery complete LOG: database system is ready to accept connections Sun Sep 30 00:10:30 UTC 2018 Sun Sep 30 00:10:30 UTC 2018 done server promoted
命令執行後,如果原來的 recovery.conf 更名為 recovery.done,表示切換成功
3、這時如果需要將老的主庫切換成備庫,在老的主庫的$PGDATA目錄下也建立recovery.conf檔案(建立方式跟之前介紹的一樣,內容可以和原從庫pghost2的一樣,只是primary_conninfo的IP換成對端pghost2的IP)
例如,主庫上的 recovery.conf 設定為:
recovery_target_timeline = 'latest' standby_mode = on primary_conninfo = 'host=172.17.0.5 port=1921 user=repuser password=domac123'
如果要求更高的安全性,可以參考如下配置:
recovery_target_timeline = 'latest' standby_mode = on primary_conninfo = 'host=172.17.0.5 port=1921 user=repuser'
與此同時,和原備庫pghost2一樣,我們建議把repuser的密碼設定在pghost1 ~/.pgpass中:
$ cd ~ $ touch .pgpass $ chmod 0600 .pgpass
填寫以下內容:
172.17.0.2:1921:replication:repuser:domac123 172.17.0.5:1921:replication:repuser:domac123
4、啟動老的主庫pghost1,這時觀察主、備進行是否正常,嚴格點可以在新的主庫上對剛才的test_ms表進行操作,觀察資料是否同步成功。
pg_ctl start
我們在新主庫(pghost2)上執行:
postgres=# select pg_is_in_recovery(); pg_is_in_recovery ------------------- f (1 row)
發現它目前的角色已經是主庫了, 在新備庫(pghost1)上繼續執行:
postgres=# select pg_is_in_recovery(); pg_is_in_recovery ------------------- t (1 row)
發現它目前的角色也已經切換為備庫了
我們再pghost2上,執行資料插入操作:
postgres=# insert into test_ms values(11); INSERT 0 1
這時,pghost1上也觀察到資料同步成功:
postgres=# select * from test_ms; id ---- 9 11 (2 rows)
到這裡為止,主從切換的演練基本完成了
總結
非同步流複製模式中,主庫提交的事務不會等待備庫接收WAL日誌流並返回確認資訊,因此非同步流複製模式下主庫與備庫的資料版本上會存在一定的處理延遲,延遲的時間主要受主庫壓力、備庫主機效能、網路頻寬等影響,當正常情況下,主備的延遲通常在毫秒級的範圍內,當主庫宕機,這個延遲就主要受到故障發現與切換時間的影響而拉長,不過雖然如此,這些資料延遲的問題,可以從架構或相關自動化運維手段不斷優化設定。
好了,以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,如果有疑問大家可以留言交流,謝謝大家對我們的支援。