1. 程式人生 > 其它 >Percona-Toolkit 之 pt-archiver 總結--轉發

Percona-Toolkit 之 pt-archiver 總結--轉發

目錄


正文

pt-archiver - Archive rows from a MySQL table into another table or a file.

pt-archiver nibbles records from a MySQL table. The --source and --dest arguments use DSN syntax; if COPY is yes, --dest

defaults to the key's value from --source.

pt-archiver是Percona-Toolkit工具集中的一個元件,是一個主要用於對MySQL表資料進行歸檔和清除工具。它可以將資料歸檔到另一張表或者是一個檔案中。pt-archiver在清除表資料的過程中並不會影響OLTP事務的查詢效能。對於資料的歸檔,它可以歸檔到另一臺伺服器上的另一張表,也可歸檔到一個檔案中,檔案可以用LOAD DATA INFILE進行資料裝載,這個功能其實就類似是表歷史資料的增量刪除。

本文是關於之前有關pt-archiver工具使用的學習筆記進行重新整理,使用最新版本的工具同時也進行原理知識的梳理。

關於獲取和安裝Percona-Toolkit工具集可以參考我另一篇博文:Percona-Toolkit 之 pt-online-schema-change 總結中的安裝部分。

回到頂部

基本說明

pt-archiver [OPTIONS] --source DSN --where WHERE

回到頂部

常用選項(OPTIONS)

--analyze
指定工具完成資料歸檔後對錶執行'ANALYZE TABLE'操作。指定方法如'--analyze=ds',s代表源端表,d代表目標端表,也可以單獨指定。

--ask-pass
命令列提示密碼輸入,保護密碼安全,前提需安裝模組perl-TermReadKey。

--buffer
指定緩衝區資料重新整理到選項'--file'指定的檔案並且在提交時重新整理。 只有當事務提交時禁用自動重新整理到'--file'指定的檔案和重新整理檔案到磁碟,這意味著檔案是被作業系統塊進行重新整理,因此在事務進行提交之前有一些資料隱式重新整理到磁碟。預設是每一行操作後進行檔案重新整理到磁碟。 --bulk-delete 指定單個語句刪除chunk的方式來批量刪除行,會隱式執行選項'--commit-each'。 使用單個DELETE語句刪除每個chunk對應的錶行,通常的做法是通過主鍵進行逐行的刪除,批量刪除在速度上會有很大的提升,但如果有複雜的'WHERE'條件就可能會更慢。 --[no]bulk-delete-limit 預設值:yes 指定新增選項'--bulk-delete''--limit'到進行歸檔的語句中。 --bulk-insert 使用LOAD DATA LOCAL INFILE的方法,通過批量插入chunk的方式來插入行(隱式指定選項'--bulk-delete''--commit-each') 而不是通過逐行單獨插入的方式進行,它比單行執行INSERT語句插入的速度要快。通過隱式建立臨時表來儲存需要批量插入的行(chunk),而不是直接進行批量插入操作,當臨時表中完成每個chunk之後再進行統一資料載入。為了保證資料的安全性,該選項會強制使用選項'--bulk-delete',這樣能夠有效保證刪除是在插入完全成功之後進行的。 --channel 指定當主從複製環境是多源複製時需要進行歸檔哪個主庫的資料,適用於多源複製中多個主庫對應一個從庫的情形。 --charset,-A 指定連線字符集。 --[no]check-charset 預設值:yes 指定檢查確保資料庫連線時字符集和表字符集相同。 --[no]check-columns 預設值:yes 指定檢查確保選項'--source'指定的源端表和'--dest'指定的目標表具有相同的欄位。 不檢查欄位在表的排序和欄位型別,只檢查欄位是否在源端表和目標表當中都存在,如果有不相同的欄位差異,則工具報錯退出。如果需要禁用該檢查,則指定'--no-check-columns'--check-slave-lag 指定主從複製延遲大於選項'--max-lag'指定的值之後暫停歸檔操作。預設情況下,工具會檢查所有的從庫,但該選項只作用於指定的從庫(通過DSN連線方式)。 --check-interval 預設值:1s 如果同時指定了選項'--check-slave-lag',則該選項指定的時間為工具發現主從複製延遲時暫停的時間。每進行操作100行時進行一次檢查。 --columns,-c 指定需要歸檔的表字段,如有多個則用','(逗號)隔開。 --commit-each 指定按每次獲取和歸檔的行數進行提交,該選項會禁用選項'--txn-size'。 在每次獲取表資料並進行歸檔之後,在獲取下一次資料和選項'--sleep'指定的休眠時間之前,進行事務提交和重新整理選項'--file'指定的檔案,通過選項'--limit'控制事務的大小。 --host,-h 指定連線的資料庫IP地址。 --port,-P 指定連線的資料庫Port埠。 --user,-u 指定連線的資料庫使用者。 --password,-p 指定連線的資料庫使用者密碼。 --socket,-S 指定使用SOCKET檔案連線。 --databases,-d 指定連線的資料庫 --source 指定需要進行歸檔操作的表,該選項是必須指定的選項,使用DSN方式表示。 --dest 指定要歸檔到的目標端表,使用DSN方式表示。 如果該選項沒有指定的話,則預設與選項'--source'指定源端表為相同表。 --where 指定通過WHERE條件語句指定需要歸檔的資料,該選項是必須指定的選項。不需要加上'WHERE'關鍵字,如果確實不需要WHERE條件進行限制,則指定'--where 1=1'--file 指定表資料需要歸檔到的檔案。使用類似MySQL DATE_FORMAT()格式化命名方式。 檔案內容與MySQL中SELECT INTO OUTFILE語句使用相同的格式,檔案命名選項如下所示: ' %Y:年,4位數(Year, numeric, four digits) %m:月,2位數(Month, numeric (01..12)) %d:日,2位數(Day of the month, numeric (01..31)) %H:小時(Hour (00..23)) %i:分鐘(Minutes, numeric (00..59)) %s:秒(Seconds (00..59)) %D:資料庫名(Database name) %t:表名(Table name) 例如:--file '/var/log/archive/%Y-%m-%d-%D.%t' ' --output-format 指定選項'--file'檔案內容輸出的格式。 預設不指定該選項是以製表符進行欄位的分隔符,如果指定該選項,則使用','(逗號)作為欄位分隔符,使用'"'(雙引號)將欄位括起。用法示例:'--output-format=dump'--for-update 指定為每次歸檔執行的SELECT語句新增FOR UPDATE子句。 --share-lock 指定為每次歸檔執行的SELECT語句新增LOCK IN SHARE MODE子句。 --header 指定在檔案中第一行寫入欄位名稱作為標題。 --ignore 指定為INSERT語句新增IGNORE選項。 --limit 預設值:1 指定每條語句獲取表和歸檔表的行數。 --local 指定不將OPTIMIZEANALYZE語句寫入binlog--max-lag 預設值:1s 指定允許主從複製延遲時長的最大值,單位秒。如果在每次獲取行資料之後主從延遲超過指定的值,則歸檔操作將暫停執行,暫停休眠時間為選項'--check-interval'指定的值。待休眠時間結束之後再次檢查主從延遲時長,檢查方法是通過從庫查詢的'Seconds_Behind_Master'值來確定。如果主從複製延遲一直大於該引數指定值或者從庫停止複製,則操作將一直等待直到從庫重新啟動並且延遲小於該引數指定值。 --no-delete 指定不刪除已被歸檔的表資料。 --optimize 指定工具完成資料歸檔後對錶執行'OPTIMIZE TABLE'操作。指定方法如'--analyze=ds',s代表源端表,d代表目標端表,也可以單獨指定。 --primary-key-only 指定只歸檔主鍵欄位,是選項'--columns=主鍵'的簡寫。 如果工具歸檔的操作是進行DELETE清除時最有效,因為只需讀取主鍵一個欄位而無需讀取行所有欄位。 --progress 指定每多少行列印進度資訊,列印當前時間,已用時間以及多少行進行歸檔。 --purge 指定執行的清除操作而不是歸檔操作。允許忽略選項'--dest''--file'進行操作,如果只是清除操作可以結合選項'--primary-key-only'會更高效。 --quiet,-q 指定工具靜默執行,不輸出任何的執行資訊。 --replace 指定寫入選項'--dest'指定目標端表時改寫INSERT語句為REPLACE語句。 --retries 預設值:1 指定歸檔操作遇到死鎖或超時的重試次數。當重試次數超過該選項指定的值時,工具將報錯退出。 --run-time 指定工具歸檔操作在退出之前需要執行的時間。允許的時間字尾名為s=秒,m=分,h=小時,d=天,如果沒指定,預設為s。 --[no]safe-auto-increment 預設值:yes 指定不使用自增列(AUTO_INCREMENT)最大值對應的行進行歸檔。 該選項在進行歸檔清除時會額外新增一條WHERE子句以防止工具刪除單列升序欄位具有的具有AUTO_INCREMENT屬性最大值的資料行,為了在資料庫重啟之後還能使用到AUTO_INCREMENT對應的值,但這會引起無法歸檔或清除欄位對應最大值的行。 --set-vars 預設: wait_timeout=10000 innodb_lock_wait_timeout=1 lock_wait_timeout=60 工具歸檔時指定引數值,如有多個用','(逗號)分隔。如'--set-vars=wait_timeout=5000'--skip-foreign-key-checks 指定使用語句SET FOREIGN_KEY_CHECKS = 0禁用外來鍵檢查。 --sleep 指定工具在通過SELECT語句獲取歸檔資料需要休眠的時間,預設值是不進行休眠。在休眠之前事務並不會提交,並且選項'--file'指定的檔案不會被重新整理。如果指定選項'--commit-each',則在休眠之前會進行事務提交和檔案重新整理。 --statistics 指定工具收集並列印操作的時間統計資訊。 統計資訊示例如下: ' Started at 2008-07-18T07:18:53, ended at 2008-07-18T07:18:53 Source: D=db,t=table SELECT 4 INSERT 4 DELETE 4 Action Count Time Pct commit 10 0.1079 88.27 select 5 0.0047 3.87 deleting 4 0.0028 2.29 inserting 4 0.0028 2.28 other 0 0.0040 3.29 ' --txn-size 預設:1 指定每個事務處理的行數。如果是0則禁用事務功能。 --version 顯示工具的版本並退出。 --[no]version-check 預設值:yes 檢查Percona Toolkit、MySQL和其他程式的最新版本。 --why-quit 指定工具列印當非因完成歸檔行數退出的原因。 在執行一個自動歸檔任務時該選項與選項'--run-time'一起使用非常方便,這樣可以確定歸檔任務是否在指定的時間內完成。如果同時指定了選項'--statistics',則會列印所有退出的原因。
回到頂部

DSN選項(DSN)

可以使用DSN方式來連線資料庫,DSN選項為key=value方式,在等號的兩側不能有空格出現,並且區分大小寫,多個選項之前以','(逗號)隔開,主要選項如下:

  • a
    歸檔操作是在哪個庫下進行的,相當於USE操作。
  • A
    指定預設字符集。
  • b
    當值為true時,禁止SQL_LOG_BIN,相當於SQL_LOG_BIN = 0
  • D
    指定包含需要歸檔表的資料庫。
  • h
    指定連線的主機。
  • u
    指定連線的使用者。
  • p
    指定連線需要的密碼。
  • P
    指定連線的埠。
  • S
    指定連線的SOCKET檔案。
  • t
    指定需要歸檔的表。
  • i
    指定需要使用的索引。
回到頂部

選項用法說明

  1. 工具至少需指定選項--dest--file--purge其中之一;
  2. 選項--ignore--replace是互斥的;
  3. 選項--txn-size--commit-each是互斥的;
  4. 選項--share-lock--for-update是互斥的;
  5. --analyze--optimize是互斥的。
回到頂部

用法示例

回到頂部

環境與資料準備

MySQL:5.7.24 192.168.58.3:3306
Percona Server:192.168.58.3:3308

本文基於MySQL官方示例資料庫employeeExample Databases進行測試。

本次測試是基於employees表以及新建的employees_ptarc表。

  • 建立測試表employees_ptarc
mysql [email protected]:employees> show create table employees_ptarc;
+-----------------+-----------------------------------------+
| Table           | Create Table                            |
+-----------------+-----------------------------------------+
| employees_ptarc | CREATE TABLE `employees_ptarc` (        |
|                 |   `id` int(11) NOT NULL AUTO_INCREMENT, |
|                 |   `v_int` int(11) DEFAULT NULL,         |
|                 |   `v_string` varchar(50) DEFAULT NULL,  |
|                 |   `s_string` char(20) NOT NULL,         |
|                 |   PRIMARY KEY (`id`)                    |
|                 | ) ENGINE=InnoDB DEFAULT CHARSET=utf8    |
+-----------------+-----------------------------------------+
1 row in set
Time: 0.019s
  • 建立儲存過程i_employees_ptarc插入測試資料
delimiter $$
CREATE PROCEDURE i_employees_ptarc (IN row_num INT)
BEGIN

DECLARE i INT DEFAULT 0 ;
WHILE i < row_num DO
	INSERT INTO employees_ptarc (v_int, v_string, s_string)
VALUES
	(
		floor(1 + rand() * 1000000),
		substring(
			MD5(RAND()),
			1,
			floor(1 + rand() * 20)
		),
		substring(MD5(RAND()), 1, 20)
	) ;
SET i = i + 1 ;
END
WHILE ; END$$

delimiter ;

mysql [email protected]:employees> call i_employees_ptarc(200000);
Query OK, 1 row affected
Time: 697.054s
  • 測試表employees_ptarc基本資訊
mysql [email protected]:employees> select min(id),max(id) from employees_ptarc;
+---------+---------+
| min(id) | max(id) |
+---------+---------+
| 1       | 200000  |
+---------+---------+
1 row in set
Time: 0.025s
mysql admin@192.168.58.3:employees> select count(*) from employees_ptarc;
+----------+
| count(*) |
+----------+
| 200000   |
+----------+
1 row in set
Time: 0.064s
mysql admin@192.168.58.3:employees> select auto_increment from information_schema.tables where table_schema = 'employees' and table_name = 'employees_ptarc';
+----------------+
| auto_increment |
+----------------+
| 200001         |
+----------------+
1 row in set
Time: 0.029s
回到頂部

表歸檔到表(逐行進行)

  • 歸檔表資料,但不刪除源端表已歸檔資料
-- 需要歸檔的資料量
mysql [email protected]:employees> select count(*) from employees where first_name = 'Anneke';
+----------+
| count(*) |
+----------+
| 225      |
+----------+
1 row in set
Time: 0.025s

-- 執行歸檔操作
# pt-archiver --source h=192.168.58.3,P=3306,u=admin,D=employees,t=employees,A=utf8 --dest h=192.168.58.3,P=3308,u=admin,D=test,t=employees_arc,A=utf8 --charset=utf8 --where 'first_name = 'Anneke'' --progress 50 --txn-size=1000 --statistics --no-delete --ask-pass
Enter password:
Enter password:

DBD::mysql::db selectrow_hashref failed: Table 'test.employees_arc' doesn't exist [for Statement "SHOW CREATE TABLE `test`.`employees_arc`"] at /usr/bin/pt-archiver line 1923, <STDIN> line 2.

通過報錯資訊可以看出目標端表不存在,先建立目標端表,與源端表結構一致,再進行歸檔操作。

-- 建立目標端表
percona [email protected]:test> show create table employees_arc;
+---------------+----------------------------------------------------+
| Table         | Create Table                                       |
+---------------+----------------------------------------------------+
| employees_arc | CREATE TABLE `employees_arc` (                     |
|               |   `emp_no` int(11) NOT NULL,                       |
|               |   `birth_date` date NOT NULL,                      |
|               |   `first_name` varchar(14) NOT NULL,               |
|               |   `last_name` varchar(16) NOT NULL,                |
|               |   `gender` enum('M','F') NOT NULL,                 |
|               |   `hire_date` date NOT NULL,                       |
|               |   PRIMARY KEY (`emp_no`),                          |
|               |   KEY `idx_first_last` (`first_name`,`last_name`), |
|               |   KEY `idx_birth_hire` (`birth_date`,`hire_date`), |
|               |   KEY `idx_empno` (`emp_no`)                       |
|               | ) ENGINE=InnoDB DEFAULT CHARSET=utf8               |
+---------------+----------------------------------------------------+
1 row in set
Time: 0.024s

-- 再次進行歸檔操作
# pt-archiver --source h=192.168.58.3,P=3306,u=admin,D=employees,t=employees,A=utf8 --dest h=192.168.58.3,P=3308,u=admin,D=test,t=employees_arc,A=utf8 --charset=utf8 --where "first_name = 'Anneke'" --progress=50 --txn-size=1000 --statistics --no-delete --ask-pass
Enter password:
Enter password:

TIME                ELAPSED   COUNT
2019-04-16T10:31:36       0       0
2019-04-16T10:31:37       0      50
2019-04-16T10:31:37       0     100
2019-04-16T10:31:37       0     150
2019-04-16T10:31:37       0     200
2019-04-16T10:31:37       0     225
Started at 2019-04-16T10:31:36, ended at 2019-04-16T10:31:37
Source: A=utf8,D=employees,P=3306,h=192.168.58.3,p=...,t=employees,u=admin
Dest:   A=utf8,D=test,P=3308,h=192.168.58.3,p=...,t=employees_arc,u=admin
SELECT 225
INSERT 225
DELETE 0
Action         Count       Time        Pct
select           114     0.5027      80.47
inserting        225     0.0572       9.15
commit             2     0.0469       7.50
other              0     0.0180       2.88

-- 查詢源表和歸檔表的歸檔資料量
mysql admin@192.168.58.3:employees> select count(*) from employees where first_name = 'Anneke';
+----------+
| count(*) |
+----------+
| 225      |
+----------+
1 row in set
Time: 0.049s

percona admin@192.168.58.3:test> select count(*) from employees_arc where first_name = 'Anneke';
+----------+
| count(*) |
+----------+
| 225      |
+----------+
1 row in set
Time: 0.023s
回到頂部

表歸檔到表(批量進行)

批量進行歸檔涉及的選項是--limit,批量進行插入涉及的選項為--bulk-insert,指定選項--bulk-insert同時也會指定選項--bulk-delete,如果不刪除已歸檔資料,則需要指定選項--no-delete

# pt-archiver --source h=192.168.58.3,P=3306,u=admin,D=employees,t=employees,A=utf8 --dest h=192.168.58.3,P=3308,u=admin,D=test,t=employees_arc,A=utf8 --charset=utf8 --where "first_name = 'Anneke'" --progress=50 --txn-size=1000 --limit=50 --statistics --no-delete --bulk-insert --ask-pass
Enter password:
Enter password:

TIME                ELAPSED   COUNT
2019-04-16T10:34:17       0       0
2019-04-16T10:34:17       0      50
2019-04-16T10:34:17       0     100
2019-04-16T10:34:17       0     150
2019-04-16T10:34:17       0     200
2019-04-16T10:34:17       0     225
Started at 2019-04-16T10:34:17, ended at 2019-04-16T10:34:17
Source: A=utf8,D=employees,P=3306,h=192.168.58.3,p=...,t=employees,u=admin
Dest:   A=utf8,D=test,P=3308,h=192.168.58.3,p=...,t=employees_arc,u=admin
SELECT 225
INSERT 225
DELETE 0
Action              Count       Time        Pct
select                  6     0.1171      81.13
bulk_inserting          5     0.0086       5.98
commit                  2     0.0025       1.72
print_bulkfile        225    -0.0004      -0.25
other                   0     0.0165      11.42
回到頂部

表歸檔到檔案

表歸檔到檔案將選項--dest換成--file,並且根據需要新增選項--output-format

# pt-archiver --source h=192.168.58.3,P=3306,u=admin,D=employees,t=employees,A=utf8 --file='/data/employees_arc_%Y-%m-%d.sql' --charset=utf8 --output-format='dump' --where "first_name = 'Anneke'" --progress=50 --txn-size=1000 --limit=50 --statistics --no-delete --ask-pass
Enter password:

TIME                ELAPSED   COUNT
2019-04-16T10:36:02       0       0
2019-04-16T10:36:02       0      50
2019-04-16T10:36:02       0     100
2019-04-16T10:36:02       0     150
2019-04-16T10:36:02       0     200
2019-04-16T10:36:02       0     225
Started at 2019-04-16T10:36:02, ended at 2019-04-16T10:36:02
Source: A=utf8,D=employees,P=3306,h=192.168.58.3,p=...,t=employees,u=admin
SELECT 225
INSERT 0
DELETE 0
Action          Count       Time        Pct
select              6     0.1253      93.68
print_file        225     0.0004       0.33
commit              1     0.0001       0.05
other               0     0.0079       5.93
回到頂部

表清除資料

如果只是進行表資料清除操作而不做歸檔操作,則可以忽略選項--dest--file,通過指定選項--purge,可以先使用選項--dry-run列印查詢需要清除資料的執行語句,做好確認之後再執行。

-- 先使用選項--dry-run
# pt-archiver --source h=192.168.58.3,P=3306,u=admin,D=employees,t=employees,A=utf8 --purge --charset=utf8 --where "first_name = 'Anneke'" --progress=50 --txn-size=1000 --limit=50 --statistics --ask-pass --dry-run
Enter password:

SELECT /*!40001 SQL_NO_CACHE */ `emp_no`,`birth_date`,`first_name`,`last_name`,`gender`,`hire_date` FROM `employees`.`employees` FORCE INDEX(`PRIMARY`) WHERE (first_name = 'Anneke') ORDER BY `emp_no` LIMIT 50
SELECT /*!40001 SQL_NO_CACHE */ `emp_no`,`birth_date`,`first_name`,`last_name`,`gender`,`hire_date` FROM `employees`.`employees` FORCE INDEX(`PRIMARY`) WHERE (first_name = 'Anneke') AND ((`emp_no` >= ?)) ORDER BY `emp_no` LIMIT 50
DELETE FROM `employees`.`employees` WHERE (`emp_no` = ?)

-- 執行清除操作
# pt-archiver --source h=192.168.58.3,P=3306,u=admin,D=employees,t=employees,A=utf8 --purge --charset=utf8 --where "first_name = 'Anneke'" --progress=50 --txn-size=1000 --limit=50 --statistics --ask-pass
Enter password:

TIME                ELAPSED   COUNT
2019-04-16T10:40:57       0       0
2019-04-16T10:40:57       0      50
2019-04-16T10:40:58       0     100
2019-04-16T10:40:58       0     150
2019-04-16T10:40:58       0     200
2019-04-16T10:40:58       0     225
Started at 2019-04-16T10:40:57, ended at 2019-04-16T10:40:58
Source: A=utf8,D=employees,P=3306,h=192.168.58.3,p=...,t=employees,u=admin
SELECT 225
INSERT 0
DELETE 225
Action        Count       Time        Pct
deleting        225     0.6943      79.10
select            6     0.1386      15.79
commit            1     0.0265       3.02
other             0     0.0183       2.08

-- 也可以使用選項--bulk-delete進行批量清除
# pt-archiver --source h=192.168.58.3,P=3306,u=admin,D=employees,t=employees,A=utf8 --purge --charset=utf8 --where "first_name = 'Anneke'" --progress=50 --txn-size=1000 --limit=50 --bulk-delete --statistics --ask-pass
Enter password:

TIME                ELAPSED   COUNT
2019-04-16T10:43:07       0       0
2019-04-16T10:43:07       0      50
2019-04-16T10:43:07       0     100
2019-04-16T10:43:07       0     150
2019-04-16T10:43:07       0     200
2019-04-16T10:43:07       0     225
Started at 2019-04-16T10:43:07, ended at 2019-04-16T10:43:07
Source: A=utf8,D=employees,P=3306,h=192.168.58.3,p=...,t=employees,u=admin
SELECT 225
INSERT 0
DELETE 225
Action             Count       Time        Pct
select                 6     0.1131      66.43
bulk_deleting          5     0.0384      22.54
commit                 1     0.0153       8.97
other                  0     0.0035       2.06
回到頂部

表自增欄位處理

預設情況下,pt-archiver工具在進行表資料歸檔或是清除時,通過新增WHERE子句條件限制具有AUTO_INCREMENT屬性欄位所對應的資料行操作,這是為了在資料庫重啟之後,之前AUTO_INCREMENT對應的值還可以使用(),但這會造成歸檔資料少一條或是清除資料少一條的情況。

-- 待歸檔資料表employees_ptarc資訊
可以檢視'環境與資料準備'資訊。

-- 指定選項--dry-run執行歸檔操作
# pt-archiver --source h=192.168.58.3,P=3306,u=admin,D=employees,t=employees_ptarc,A=utf8 --dest h=192.168.58.3,P=3308,u=admin,D=test,t=employees_ptarc,A=utf8 --charset=utf8 --where "1 = 1" --progress=10000 --txn-size=10000 --limit=10000 --statistics --no-delete --bulk-insert --ask-pass --dry-run
Enter password:
Enter password:

SELECT /*!40001 SQL_NO_CACHE */ `id`,`v_int`,`v_string`,`s_string` FROM `employees`.`employees_ptarc` FORCE INDEX(`PRIMARY`) WHERE (1 = 1) AND (`id` < '200000') ORDER BY `id` LIMIT 10000
SELECT /*!40001 SQL_NO_CACHE */ `id`,`v_int`,`v_string`,`s_string` FROM `employees`.`employees_ptarc` FORCE INDEX(`PRIMARY`) WHERE (1 = 1) AND (`id` < '200000') AND ((`id` > ?)) ORDER BY `id` LIMIT 10000
LOAD DATA LOCAL INFILE ? INTO TABLE `test`.`employees_ptarc`CHARACTER SET utf8(`id`,`v_int`,`v_string`,`s_string`)

-- 指定選項--dry-run執行清除操作
# pt-archiver --source h=192.168.58.3,P=3306,u=admin,D=employees,t=employees_ptarc,A=utf8 --purge --charset=utf8 --where "1 = 1" --progress=10000 --txn-size=10000 --limit=10000 --statistics --bulk-delete --ask-pass --dry-run
Enter password:

SELECT /*!40001 SQL_NO_CACHE */ `id`,`v_int`,`v_string`,`s_string` FROM `employees`.`employees_ptarc` FORCE INDEX(`PRIMARY`) WHERE (1 = 1) AND (`id` < '200000') ORDER BY `id` LIMIT 10000
SELECT /*!40001 SQL_NO_CACHE */ `id`,`v_int`,`v_string`,`s_string` FROM `employees`.`employees_ptarc` FORCE INDEX(`PRIMARY`) WHERE (1 = 1) AND (`id` < '200000') AND ((`id` >= ?)) ORDER BY `id` LIMIT 10000
DELETE FROM `employees`.`employees_ptarc` WHERE (((`id` >= ?))) AND (((`id` <= ?))) AND (1 = 1) LIMIT 10000

可以看出工具在執行查詢歸檔資料的語句時,指定了條件id < 200000,而實際上表中是有id = 200000這條資料的,並且在歸檔操作時並沒有指定條件排除這條語句,顯然是pt-archiver工具自動新增的條件。

這樣可以避免AUTO_INCREMENT屬性的值在資料庫重啟後還可以重用,可以做如下測試說明:

-- 表employees_ptarc當前的AUTO_INCREMENT屬性值
mysql [email protected]:employees> select auto_increment from information_schema.tables where table_schema = 'employees' and table_name = 'employees_ptarc';
+----------------+
| auto_increment |
+----------------+
| 200001         |
+----------------+
1 row in set
Time: 0.048s

-- 需要清除的資料量
mysql admin@192.168.58.3:employees> select count(*) from employees_ptarc where id <=199990 or id > 199995;
+----------+
| count(*) |
+----------+
| 199995   |
+----------+
1 row in set
Time: 0.102s

-- 執行資料清除操作
# pt-archiver --source h=192.168.58.3,P=3306,u=admin,D=employees,t=employees_ptarc,A=utf8 --purge --charset=utf8 --where "id <= 199990 or id > 199995" --progress=50000 --txn-size=50000 --limit=50000 --statistics --bulk-delete --ask-pass
Enter password:

TIME                ELAPSED   COUNT
2019-04-16T10:47:59       0       0
2019-04-16T10:48:00       0   50000
2019-04-16T10:48:00       1  100000
2019-04-16T10:48:01       2  150000
2019-04-16T10:48:02       2  199994
Started at 2019-04-16T10:47:59, ended at 2019-04-16T10:48:02
Source: A=utf8,D=employees,P=3306,h=192.168.58.3,p=...,t=employees_ptarc,u=admin
SELECT 199994
INSERT 0
DELETE 199994
Action             Count       Time        Pct
bulk_deleting          4     0.9030      28.23
select                 5     0.2095       6.55
commit                 4     0.1562       4.88
other                  0     1.9298      60.33

可以看出只清除了199994行資料。

-- 查詢未清除資料
mysql admin@192.168.58.3:employees> select * from employees_ptarc;
+--------+--------+---------------+----------------------+
| id     | v_int  | v_string      | s_string             |
+--------+--------+---------------+----------------------+
| 199991 | 60305  | 526ed         | 0240a2d81e255c915b5a |
| 199992 | 546438 | a85b6a18d     | 0bf1d636cd0e536eb044 |
| 199993 | 543327 | 1367a1c       | 68908231ca18ed631907 |
| 199994 | 99632  | 2f            | 5c10f8d106a30bb1ef95 |
| 199995 | 164172 | e57bba13eb3c1 | 3208ac758bd8c912c39f |
| 200000 | 108936 | 3bc1db70b     | 079f744bf2800ad62a9b |
+--------+--------+---------------+----------------------+
6 rows in set
Time: 0.018s

-- 重啟後,查詢當前AUTO_INCREMENT屬性值
mysql admin@192.168.58.3:employees> select auto_increment from information_schema.tables where table_schema = 'employees' and table_name = 'employees_ptarc';
+----------------+
| auto_increment |
+----------------+
| 200001         |
+----------------+
1 row in set
Time: 0.014s

為了不保護AUTO_INCREMENT屬性最大值的資料行,工具提供了選項--no-safe-auto-increment,指定該選項後再進行測試:

-- 指定選項--dry-run執行清除操作
# pt-archiver --source h=192.168.58.3,P=3306,u=admin,D=employees,t=employees_ptarc,A=utf8 --purge --charset=utf8 --where "id <= 199990 or id > 199995" --progress=50000 --txn-size=50000 --limit=50000 --statistics --bulk-delete --no-safe-auto-increment --ask-pass --dry-run
Enter password:

SELECT /*!40001 SQL_NO_CACHE */ `id`,`v_int`,`v_string`,`s_string` FROM `employees`.`employees_ptarc` FORCE INDEX(`PRIMARY`) WHERE (id <= 199990 or id > 199995) ORDER BY `id` LIMIT 50000
SELECT /*!40001 SQL_NO_CACHE */ `id`,`v_int`,`v_string`,`s_string` FROM `employees`.`employees_ptarc` FORCE INDEX(`PRIMARY`) WHERE (id <= 199990 or id > 199995) AND ((`id` >= ?)) ORDER BY `id` LIMIT 50000
DELETE FROM `employees`.`employees_ptarc` WHERE (((`id` >= ?))) AND (((`id` <= ?))) AND (id <= 199990 or id > 199995) LIMIT 50000

從以上資訊看出並沒有對AUTO_INCREMENT屬性欄位最大值進行排除。

-- 執行資料清除操作
# pt-archiver --source h=192.168.58.3,P=3306,u=admin,D=employees,t=employees_ptarc,A=utf8 --purge --charset=utf8 --where "id <= 199990 or id > 199995" --progress=50000 --txn-size=50000 --limit=50000 --statistics --bulk-delete --no-safe-auto-increment --ask-pass
Enter password:

TIME                ELAPSED   COUNT
2019-04-16T10:52:19       0       0
2019-04-16T10:52:20       0   50000
2019-04-16T10:52:20       1  100000
2019-04-16T10:52:21       1  150000
2019-04-16T10:52:22       2  199995
Started at 2019-04-16T10:52:19, ended at 2019-04-16T10:52:22
Source: A=utf8,D=employees,P=3306,h=192.168.58.3,p=...,t=employees_ptarc,u=admin
SELECT 199995
INSERT 0
DELETE 199995
Action             Count       Time        Pct
bulk_deleting          4     0.7500      27.80
select                 5     0.1851       6.86
commit                 4     0.0622       2.30
other                  0     1.7007      63.03

可以看出清除了199995行資料。

-- 查詢未清除資料
mysql admin@192.168.58.3:employees> select * from employees_ptarc;
+--------+--------+---------------+----------------------+
| id     | v_int  | v_string      | s_string             |
+--------+--------+---------------+----------------------+
| 199991 | 60305  | 526ed         | 0240a2d81e255c915b5a |
| 199992 | 546438 | a85b6a18d     | 0bf1d636cd0e536eb044 |
| 199993 | 543327 | 1367a1c       | 68908231ca18ed631907 |
| 199994 | 99632  | 2f            | 5c10f8d106a30bb1ef95 |
| 199995 | 164172 | e57bba13eb3c1 | 3208ac758bd8c912c39f |
+--------+--------+---------------+----------------------+
5 rows in set
Time: 0.027s

-- 重啟後,查詢當前AUTO_INCREMENT屬性值
mysql admin@192.168.58.3:employees> select auto_increment from information_schema.tables where table_schema = 'employees' and table_name = 'employees_ptarc';
+----------------+
| auto_increment |
+----------------+
| 199996         |
+----------------+
1 row in set
Time: 0.046s

從以上查詢資訊可以看出AUTO_INCREMENT屬性值發生了變化。如果要恢復成之前的狀態值,可以通過手動執行命令進行修復:

mysql [email protected]:employees> alter table employees_ptarc auto_increment = 200001;
Query OK, 0 rows affected
Time: 0.013s

mysql [email protected]:employees> select auto_increment from information_schema.tables where table_schema = 'employees' and table_name = 'employees_ptarc';
+----------------+
| auto_increment |
+----------------+
| 200001         |
+----------------+
1 row in set
Time: 0.020s
回到頂部

工作流程

分別開啟兩個例項的general log來了解pt-archiver工具的工作流程,工作流程是基於表歸檔到表(批量進行)這個用法來說明,同時刪除源端表的已歸檔資料。

執行命令如下:

# pt-archiver --source h=192.168.58.3,P=3306,u=admin,D=employees,t=employees_ptarc,A=utf8 --dest h=192.168.58.3,P=3308,u=admin,D=test,t=employees_ptarc,A=utf8 --charset=utf8 --where "id <= 199995" --progress=50000 --txn-size=50000 --limit=50000 --statistics --bulk-insert --ask-pass
Enter password:
Enter password:

TIME                ELAPSED   COUNT
2019-04-16T10:56:18       0       0
2019-04-16T10:56:19       1   50000
2019-04-16T10:56:21       2  100000
2019-04-16T10:56:23       4  150000
2019-04-16T10:56:24       6  199995
Started at 2019-04-16T10:56:18, ended at 2019-04-16T10:56:25
Source: A=utf8,D=employees,P=3306,h=192.168.58.3,p=...,t=employees_ptarc,u=admin
Dest:   A=utf8,D=test,P=3308,h=192.168.58.3,p=...,t=employees_ptarc,u=admin
SELECT 199995
INSERT 199995
DELETE 199995
Action              Count       Time        Pct
bulk_inserting          4     1.3027      19.51
bulk_deleting           4     0.7103      10.64
select                  5     0.1872       2.80
commit                  8     0.1455       2.18
print_bulkfile     199995    -0.3881      -5.81
other                   0     4.7192      70.68
  • 源端例項general log
-- 初始的一些檢查資料庫引數、負載資訊
13 Connect	admin@dbabd1 on employees using TCP/IP
13 Query	set autocommit=0
13 Query	/*!40101 SET NAMES "utf8"*/
13 Query	SHOW VARIABLES LIKE 'wait\_timeout'
13 Query	SET SESSION wait_timeout=10000
13 Query	SELECT @@SQL_MODE
13 Query	SET @@SQL_QUOTE_SHOW_CREATE = 1/*!40101, @@SQL_MODE='NO_AUTO_VALUE_ON_ZERO,ONLY_FULL_GROUP_BY,STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION'*/
13 Query	SELECT version()
13 Query	SHOW VARIABLES LIKE 'version%'
13 Query	SHOW ENGINES
13 Query	SHOW VARIABLES LIKE 'innodb_version'
13 Query	show variables like 'innodb_rollback_on_timeout'
13 Query	/*!40101 SET @OLD_SQL_MODE := @@SQL_MODE, @@SQL_MODE := '', @OLD_QUOTE := @@SQL_QUOTE_SHOW_CREATE, @@SQL_QUOTE_SHOW_CREATE := 1 */
13 Query	USE `employees`
13 Query	SHOW CREATE TABLE `employees`.`employees_ptarc`
13 Query	/*!40101 SET @@SQL_MODE := @OLD_SQL_MODE, @@SQL_QUOTE_SHOW_CREATE := @OLD_QUOTE */
13 Query	SELECT CONCAT(/*!40100 @@session.character_set_connection, */ "")
13 Query	SHOW VARIABLES LIKE 'wsrep_on'
13 Query	SHOW VARIABLES LIKE 'wsrep_on'
13 Query	SHOW VARIABLES LIKE 'version%'
13 Query	SHOW ENGINES
13 Query	SHOW VARIABLES LIKE 'innodb_version'

-- 確定歸檔資料最大邊界值,根據主鍵還有選項--limit確定每次歸檔的資料
13 Query	SELECT MAX(`id`) FROM `employees`.`employees_ptarc`
13 Query	SELECT CONCAT(@@hostname, @@port)
13 Query	SELECT /*!40001 SQL_NO_CACHE */ `id`,`v_int`,`v_string`,`s_string` FROM `employees`.`employees_ptarc` FORCE INDEX(`PRIMARY`) WHERE (id <= 199995) AND (`id` < '200000') ORDER BY `id` LIMIT 50000
13 Query	SELECT 'pt-archiver keepalive'
13 Query	SELECT 'pt-archiver keepalive'
13 Query	SELECT 'pt-archiver keepalive'

……省略……

13 Query	SELECT 'pt-archiver keepalive'
13 Query	SELECT 'pt-archiver keepalive'
13 Query	commit
13 Query	SELECT 'pt-archiver keepalive'

-- 歸檔完資料之後根據是否有選項--no-delete進行刪除操作
13 Query	DELETE FROM `employees`.`employees_ptarc` WHERE (((`id` >= '1'))) AND (((`id` <= '50000'))) AND (id <= 199995) LIMIT 50000

-- 進行接下去的資料歸檔操作
13 Query	SELECT /*!40001 SQL_NO_CACHE */ `id`,`v_int`,`v_string`,`s_string` FROM `employees`.`employees_ptarc` FORCE INDEX(`PRIMARY`) WHERE (id <= 199995) AND (`id` < '200000') AND ((`id` >= '50000')) ORDER BY `id` LIMIT 50000
13 Query	SELECT 'pt-archiver keepalive'
13 Query	SELECT 'pt-archiver keepalive'
13 Query	SELECT 'pt-archiver keepalive'

……省略……

13 Query	SELECT 'pt-archiver keepalive'
13 Query	SELECT 'pt-archiver keepalive'
13 Query	commit
13 Query	SELECT 'pt-archiver keepalive'
13 Query	DELETE FROM `employees`.`employees_ptarc` WHERE (((`id` >= '50001'))) AND (((`id` <= '100000'))) AND (id <= 199995) LIMIT 50000
13 Query	SELECT /*!40001 SQL_NO_CACHE */ `id`,`v_int`,`v_string`,`s_string` FROM `employees`.`employees_ptarc` FORCE INDEX(`PRIMARY`) WHERE (id <= 199995) AND (`id` < '200000') AND ((`id` >= '100000')) ORDER BY `id` LIMIT 50000
13 Query	SELECT 'pt-archiver keepalive'
13 Query	SELECT 'pt-archiver keepalive'
13 Query	SELECT 'pt-archiver keepalive'

……省略……

13 Query	SELECT 'pt-archiver keepalive'
13 Query	SELECT 'pt-archiver keepalive'
13 Query	commit
13 Query	SELECT 'pt-archiver keepalive'
13 Query	DELETE FROM `employees`.`employees_ptarc` WHERE (((`id` >= '100001'))) AND (((`id` <= '150000'))) AND (id <= 199995) LIMIT 50000
13 Query	SELECT /*!40001 SQL_NO_CACHE */ `id`,`v_int`,`v_string`,`s_string` FROM `employees`.`employees_ptarc` FORCE INDEX(`PRIMARY`) WHERE (id <= 199995) AND (`id` < '200000') AND ((`id` >= '150000')) ORDER BY `id` LIMIT 50000
13 Query	SELECT 'pt-archiver keepalive'
13 Query	SELECT 'pt-archiver keepalive'
13 Query	SELECT 'pt-archiver keepalive'

……省略……

13 Query	SELECT 'pt-archiver keepalive'
13 Query	SELECT 'pt-archiver keepalive'
13 Query	DELETE FROM `employees`.`employees_ptarc` WHERE (((`id` >= '150001'))) AND (((`id` <= '199995'))) AND (id <= 199995) LIMIT 50000

-- 完成最後查詢是否還有歸檔資料
13 Query	SELECT /*!40001 SQL_NO_CACHE */ `id`,`v_int`,`v_string`,`s_string` FROM `employees`.`employees_ptarc` FORCE INDEX(`PRIMARY`) WHERE (id <= 199995) AND (`id` < '200000') AND ((`id` >= '199995')) ORDER BY `id` LIMIT 50000
13 Query	commit
13 Quit	
  • 目標端例項general log
-- 初始的一些檢查資料庫引數、負載資訊
62 Connect	admin@dbabd1 on test using TCP/IP
62 Query	set autocommit=0
62 Query	/*!40101 SET NAMES "utf8"*/
62 Query	SHOW VARIABLES LIKE 'wait\_timeout'
62 Query	SET SESSION wait_timeout=10000
62 Query	SELECT @@SQL_MODE
62 Query	SET @@SQL_QUOTE_SHOW_CREATE = 1/*!40101, @@SQL_MODE='NO_AUTO_VALUE_ON_ZERO,ONLY_FULL_GROUP_BY,STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION'*/
62 Query	SELECT version()
62 Query	SHOW VARIABLES LIKE 'version%'
62 Query	SHOW ENGINES
62 Query	SHOW VARIABLES LIKE 'innodb_version'
62 Query	show variables like 'innodb_rollback_on_timeout'
62 Query	/*!40101 SET @OLD_SQL_MODE := @@SQL_MODE, @@SQL_MODE := '', @OLD_QUOTE := @@SQL_QUOTE_SHOW_CREATE, @@SQL_QUOTE_SHOW_CREATE := 1 */

-- 切換進入目標端資料庫
62 Query	USE `test`
62 Query	SHOW CREATE TABLE `test`.`employees_ptarc`
62 Query	/*!40101 SET @@SQL_MODE := @OLD_SQL_MODE, @@SQL_QUOTE_SHOW_CREATE := @OLD_QUOTE */
62 Query	SELECT CONCAT(/*!40100 @@session.character_set_connection, */ "")
62 Query	SELECT CONCAT(@@hostname, @@port)
62 Query	commit

-- 批量插入選項--bulk-insert是通過LOAD DATA INFILE方式生成臨時檔案進行匯入
62 Query	LOAD DATA LOCAL INFILE '/tmp/UGeTe6hEIPpt-archiver' INTO TABLE `test`.`employees_ptarc`CHARACTER SET utf8(`id`,`v_int`,`v_string`,`s_string`)
62 Query	commit
62 Query	LOAD DATA LOCAL INFILE '/tmp/PNNmzgvqx6pt-archiver' INTO TABLE `test`.`employees_ptarc`CHARACTER SET utf8(`id`,`v_int`,`v_string`,`s_string`)
62 Query	commit
62 Query	LOAD DATA LOCAL INFILE '/tmp/pJDb48JQvQpt-archiver' INTO TABLE `test`.`employees_ptarc`CHARACTER SET utf8(`id`,`v_int`,`v_string`,`s_string`)
62 Query	LOAD DATA LOCAL INFILE '/tmp/xvb0NmYJiGpt-archiver' INTO TABLE `test`.`employees_ptarc`CHARACTER SET utf8(`id`,`v_int`,`v_string`,`s_string`)
62 Query	commit
62 Quit	
回到頂部

總結

  1. pt-archiver是一個十分高效的表資料歸檔工具,歸檔資料可以分批進行事務處理,減少效能消耗;
  2. 如果例項開啟了GTID,因為GTID不支援CTAS建立表的語法,可以使用pt-archiver處理;
  3. 對於跨例項或者跨伺服器的表資料歸檔,pt-archiver可以執行在目標端伺服器,因為生成的臨時檔案是在工具執行所在的伺服器。
  4. 對於大表的過期資料的批量刪除也可以通過pt-archiver指定選項--purge進行處理。
回到頂部

參考

https://www.percona.com/doc/percona-toolkit/LATEST/pt-archiver.html

☆〖本人水平有限,文中如有錯誤還請留言批評指正!〗☆