1. 程式人生 > 資料庫 >PostgreSQL時間線(timeline)和History File的用法

PostgreSQL時間線(timeline)和History File的用法

說明:

在pg中,當我們進行了基於時間點的還原(PITR)後,資料庫會啟用新的時間線並繼續進行操作。

但是,當我們進行基於時間點的還原後如果發現又出現錯誤,想要繼續還原資料庫該如何操作呢?如何還原到原先舊的時間線呢?

我們可以使用recovery_target_timeline引數來指定資料庫還原到某一個時間線上。如果你還不清楚這個引數該如何使用,或者說壓根不知道時間線是啥,那麼請繼續往下看。

PostgreSQL 時間線:

每當我們在資料庫中完成一個事務時,所做的操作都會記錄到$PGDATA/pg_wal目錄下的wal日誌檔案中。

wal日誌檔案一般都是下面這種格式:

000000010000000000000001

當一個wal日誌被寫滿後,便會建立新的wal日誌000000010000000000000002,以此類推。

該檔案中前8位,即:00000001表示的便是資料庫的時間線。

從控制檔案中也可以看到:

-bash-4.1$-> pg_controldata |grep TimeLineID
Latest checkpoint's TimeLineID: 1
Latest checkpoint's PrevTimeLineID: 1

每當我們進行基於時間點的還原後,時間線便會加1,並建立一個名為NewTimelineID.history的新檔案。這個檔案是幹什麼用的我們後面會介紹。

recovery_target_timeline是一個引數,它可以幫助我們將叢集帶入歷史記錄中的任何時間線,只要有效的基本備份和所有存檔日誌都到位。

我們來看看下面的例子:

首先,重新初始化一個新的資料庫叢集。

-bash-4.1$-> ls pg_wal

000000010000000000000001 archive_status

然後建立一張表並插入資料。

bill=# create table timeline(tid int,remarks varchar(1000));
CREATE TABLE
bill=# insert into timeline values('1','This is timeline id 1');
INSERT 0 1
bill=# checkpoint;
CHECKPOINT
bill=# select pg_switch_wal();
pg_switch_wal
---------------
0/15D4B70
(1 row)

剛剛插入的資料便記錄在000000010000000000000001的wal日誌中。

當wal日誌寫到000000010000000000000005時,進行一次完整的備份,接著再產生一些新的wal日誌。

-bash-4.1$ ls -rlt
total 147460
-rw------- 1 postgres postgres 16777216 Nov 22 13:03 000000010000000000000001
-rw------- 1 postgres postgres 16777216 Nov 22 13:03 000000010000000000000002
-rw------- 1 postgres postgres 16777216 Nov 22 13:03 000000010000000000000003
-rw------- 1 postgres postgres 16777216 Nov 22 13:05 000000010000000000000004
-rw------- 1 postgres postgres 16777216 Nov 22 13:05 000000010000000000000005
-rw------- 1 postgres postgres 337 Nov 22 13:05 000000010000000000000005.00000028.backup
-rw------- 1 postgres postgres 16777216 Nov 22 13:06 000000010000000000000006
-rw------- 1 postgres postgres 16777216 Nov 22 13:06 000000010000000000000007

可以看到,現在最新的wal日誌是000000010000000000000008

接著插入一條新的資料。

bill=# insert into timeline values('1','This is timeline id 1 after basebackup');
INSERT 0 1
bill=# checkpoint;
CHECKPOINT
-bash-4.1$ pg_waldump 000000010000000000000008 | grep INSERT
rmgr: Heap len (rec/tot): 54/ 214,tx:
487,lsn: 0/08000110,prev 0/080000D8,desc: INSERT off 2 flags 0x00,blkref #0: rel 1663/13530/16384 blk 0 FPW

然後再產生幾個wal日誌,現在的情況如下:

-bash-4.1$ ls -rlt
total 311308
-rw------- 1 16777216 Nov 22 13:03 000000010000000000000001
-rw------- 1 16777216 Nov 22 13:03 000000010000000000000002
-rw------- 1 16777216 Nov 22 13:03 000000010000000000000003
-rw------- 1 16777216 Nov 22 13:05 000000010000000000000004
-rw------- 1 16777216 Nov 22 13:05 000000010000000000000005
-rw------- 1 337 Nov 22 13:05 000000010000000000000005.00000028.backup
-rw------- 1 16777216 Nov 22 13:06 000000010000000000000006
-rw------- 1 16777216 Nov 22 13:06 000000010000000000000007
-rw------- 1 16777216 Nov 22 13:07 000000010000000000000008
-rw------- 1 16777216 Nov 22 13:07 000000010000000000000009
-rw------- 1 16777216 Nov 22 13:09 00000001000000000000000A

如下圖所示:

PostgreSQL時間線(timeline)和History File的用法

此時,在我插入第二條資料前,我想要把資料還原到000000010000000000000007這個點。

因此我在postgresql.conf檔案中將恢復目標lsn設定為“ 0/07000060”。

接著進行還原,當我們還原之後,資料庫切換到了新的時間線。

除此之外還有哪些改變呢?

恢復結束是指資料庫開啟進行寫入的點。

建立了新的時間線的 history file檔案,如00000002.history。

前一個時間線上的部分WAL檔案已被新時間線的ID複製。

檢查點記錄寫在新的時間線上。

日誌中會記錄下列資訊:

LOG: starting point-in-time recovery to WAL location (LSN) "0/7000060"
LOG: restored log file "000000010000000000000005" from archive
LOG: redo starts at 0/5000028
LOG: consistent recovery state reached at 0/5000138
LOG: database system is ready to accept read only connections
LOG: restored log file "000000010000000000000006" from archive
LOG: restored log file "000000010000000000000007" from archive
LOG: recovery stopping after WAL location (LSN) "0/7000060"
LOG: pausing at the end of recovery
HINT: Execute pg_wal_replay_resume() to promote.

此時,PostgreSQL已在wal日誌7處分支到新的時間線,並開始建立時間線ID為2的新wal日誌。我們可以下wal日誌目錄下看到00000002.history檔案。

該檔案是可讀檔案,內容大致為:

1<parentTLI> 0/70000D8 <switchpoint> after LSN 0/7000060<reason>
parentTLI   ID of the parent timeline
switchpoint  XLogRecPtr of the WAL location where the switch happened
reason   human-readable explanation of why the timeline was changed

接下來,我向wal日誌00000002000000000000000A (0/A000060)中插入新的資料。

bill=# insert into timeline values('2','This is timeline id 2 correct');

INSERT 0 1

以及另一個wal日誌00000002000000000000000D(0/D000000)中插入另一條資料。

bill=# insert into timeline values('2','This is timeline id 2 wrong at 0/D000000');

INSERT 0 1

PostgreSQL時間線(timeline)和History File的用法

這個時候,我在00000002000000000000000D的wal日誌中執行了錯誤的操作,想要回退到時間線2的00000002000000000000000C處,那麼我要如何操作呢,如果像前面一樣只指定lsn那麼怎麼保證不會回退到時間線1中呢?

這個時候我們便可以通過指定recovery_target_timeline來實現。

在postgresql.conf檔案中新增:

recovery_target_timeline = '2'

recovery_target_lsn = '0/0C000060'

接著,啟動資料庫,可以看到日誌中:

LOG: database system was interrupted; last known up at 2020-11-22 13:05:01 IST
LOG: restored log file "<span style="color: rgb(255,0);" data-mce-style="color: #ff0000;">00000002.history</span>" from archive
cp: cannot stat `/u02/archivelogs/00000003.history': No such file or directory
LOG: starting point-in-time recovery to WAL location (LSN) "0/C000060"
LOG: restored log file "00000002.history" from archive
LOG: restored log file "<span style="color: rgb(255,0);" data-mce-style="color: #ff0000;">000000010000000000000005</span>" from archive
LOG: redo starts at 0/5000028
LOG: consistent recovery state reached at 0/5000138
LOG: database system is ready to accept read only connections
LOG: restored log file "000000010000000000000006" from archive
LOG: restored log file "000000020000000000000007" from archive
LOG: restored log file "000000020000000000000008" from archive
LOG: restored log file "000000020000000000000009" from archive
LOG: restored log file "00000002000000000000000A" from archive
LOG: restored log file "00000002000000000000000B" from archive
LOG: restored log file "<span style="color: rgb(255,0);" data-mce-style="color: #ff0000;">00000002000000000000000C</span>" from archive
LOG: recovery stopping after WAL location (LSN) "<span style="color: rgb(255,0);" data-mce-style="color: #ff0000;">0/C000060</span>"
LOG: pausing at the end of recovery
HINT: Execute pg_wal_replay_resume() to promote.
..
LOG: redo done at 0/C000060
LOG: last completed transaction was at log time 2020-11-22 13:15:29.696929+05:30

然後查詢該表驗證:

bill=# select * from timeline;
 tid |  remarks
-----+-------------------------------
 1 | This is timeline id 1
 2 | This is timeline id 2 correct
(2 rows)

PostgreSQL時間線(timeline)和History File的用法

此時可以看到新建了00000003.history檔案,該檔案內容如下:

-bash-4.1$ cat 00000003.history
1 0/70000D8 after LSN 0/7000060
2 0/C0000D8 after LSN 0/C000060

我們不難發現:

history file這個檔案中記錄的就是這個時間線是從哪個WAL位置開始生成的。

補充:PostgreSQL promote過程 和 一主多備 時間線 無縫對接 詳解

PostgreSQL的physical standby資料庫的promote過程,資料庫會在pg_xlog目錄產生3個檔案。

例如將備庫1 promote,它將在pg_xlog目錄產生如下檔案:

A.partial  (xlog) 
NEWTL_A (xlog)
NEWTL.history (history file)

例如備庫1當前已接收到的XLOG位置是 00000001000000000000002D 檔案中的某個位置 0/2D15D7D0,現在promote它 。

將會在pg_xlog目錄中產生3個檔案:

00000001000000000000002D.partial
00000002000000000000002D 
  (00000001000000000000002D.partial 的內容會拷貝到 00000002000000000000002D)
00000002.history
   1  0/2D15D7D0  no recovery target specified

假設還有一個備庫叫備庫2,備庫2如何能順利的對接到已啟用的備庫1呢?

有個前提條件

備庫2在TL1這條時間線上,還沒有接收到00000001000000000000002D 這個檔案。

把00000002.history拷貝到備庫2的pg_xlog。

備庫2會在應用完00000001000000000000002C後請求下一個時間線的 00000002000000000000002D 檔案。

這樣就能完美對接。

以上為個人經驗,希望能給大家一個參考,也希望大家多多支援我們。如有錯誤或未考慮完全的地方,望不吝賜教。