一次主從復制出錯解決與pt-slave-restart工具使用
緣由:
測試環境中,主庫執行了DDL語句增加一個字段的長度後,從庫報無法修改這個字段長的的問題,且這個字段的長度已經介於原來的長度和目標長度中間了
環境
5.7.19 GTID雙主復制
解決步驟:
1.嘗試手工修改字段長度,恢復到未修改前的長度,重啟slave進程。結果:失敗,報同樣的錯誤,錯誤編號1677
2.嘗試手工修改字段長度,同步到修改後長度,跳過這個事務:
mysql>stop slave; mysql>set gtid_next="d7c35015-9dd1-11e7-b70d-005056aa19c3:51629"; ##這裏需要註意,由於開啟了雙主GTID復制,show master status和Executed_gtid_set會有兩個GTID值,其中一個為自己的GTID,另一個為主的GTID。 ##設置的時候只要把主庫的GTID寫進“”即可。自身的GTID不需要指明,但如果使用set gtid_purged的方式跳過,是需要可以指明兩個GTID的 mysql>begin;commit; ##設置後,插入一個空事務進行更新GTID。 mysql>set gtid_next=‘automatic‘; ##官方手冊規定:精確的指定過一次GTID,並產生一次事務後,後面必須再次指定一次gtid_next的模式(是模式,不是精確值,官方手冊這裏沒有寫清楚) ##“After this variable has been set to UUID:NUMBER, and a transaction has been committed or rolled back, an explicit SET GTID_NEXT statement must again be issued before any other statement.” mysql>start slave;
講道理,這裏就應該正常了,但還是報同樣的錯誤,一次次的這樣操作也很麻煩,
3.批量跳過復制錯誤有如下兩個方法
使用slave-skip-errors=123,456,789,但這個參數不是動態參數,需要寫進配置文件並重啟,而且也不方便觀測
使用percona公司的pt-slave-restart工具
pt-slave-restart是percona-toolkit工具集中的一個專用於處理復制錯誤的工具
原理:根據設置,跳過從主庫過來的指定錯誤事務
1.支持GTID復制,但是不支持多線程復制,工具分不清到底哪個線程復制出了問題
2.除了主機指定外的實用參數:
--always :永不停止slave線程,手工停止也不行
--ask-pass :替換-p命令,防止密碼輸入被身後的開發窺屏
--error-numbers :指定跳過哪些錯誤,可用,進行分隔
--error-text :根據錯誤信息進行匹配跳過
--log :輸出到文件
--recurse :在主端執行,監控從端
--runtime :工具執行多長時間後退出:默認秒, m=minute,h=hours,d=days
--slave-user --slave-password :從庫的賬號密碼,從主端運行時使用
--skip-count :一次跳過錯誤的個數,膽大的可以設置大些,不指定默認1個
--master-uuid :級聯復制的時候,指定跳過上級或者上上級事務的錯誤
--until-master :到達指定的master_log_pos,file位置後停止,
格式:”file:pos“
--until-relay :和上面一樣,但是時根據relay_log的位置來停止
安裝:
centos#yum install https://www.percona.com/redir/downloads/percona-release/redhat/percona-release-0.1-4.noarch.rpm centos#yum search percon-tool centos#yum -y install yum install percona-toolkit
查看幫助文件:
perldoc /usr/bin/pt-slave-restart
運行工具:
pt-slave-restart --user=root --password=123456 --socket=/data/mysql/3304/tmp/mysql3304.sock --error-numbers=1677
輸出如下:
Not checking slave because relay log file or position has not changed (file relay-bin.000002 pos 205804892) 2017-09-30T12:55:03 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002 205805634 1677 Not checking slave because relay log file or position has not changed (file relay-bin.000002 pos 205805634) Not checking slave because relay log file or position has not changed (file relay-bin.000002 pos 205805634) Not checking slave because relay log file or position has not changed (file relay-bin.000002 pos 205805634) 2017-09-30T12:55:03 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002 205806382 1677 2017-09-30T12:55:04 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002 205807125 1677 2017-09-30T12:55:04 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002 205807873 1677 Not checking slave because relay log file or position has not changed (file relay-bin.000002 pos 205807873) 2017-09-30T12:55:20 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002 205997621 1677 2017-09-30T12:55:21 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002 205998353 1677 2017-09-30T12:55:22 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002 205999085 1677 2017-09-30T12:55:23 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002 205999823 1677 2017-09-30T12:55:24 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002 206000565 1677 2017-09-30T12:55:24 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002 206001307 1677 2017-09-30T12:55:24 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002 206002049 1677 2017-09-30T12:55:24 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002 206002783 1677 2017-09-30T12:55:24 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002 206003517 1677 2017-09-30T12:55:24 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002 206004253 1677
查看從庫線程情況:
************** 1. row *************************** Slave_IO_State: Waiting for master to send event Master_Host: 192.168.100.200 Master_User: bt_repl Master_Port: 3304 Connect_Retry: 60 Master_Log_File: 3304binlog.000002 Read_Master_Log_Pos: 665635124 Relay_Log_File: relay-bin.000006 Relay_Log_Pos: 2080902 Relay_Master_Log_File: 3304binlog.000002 Slave_IO_Running: Yes Slave_SQL_Running: Yes Last_Errno: 0 Last_Error: Skip_Counter: 0 Exec_Master_Log_Pos: 665635124 Relay_Log_Space: 2081454 Until_Condition: None Until_Log_File: Until_Log_Pos: 0 Master_SSL_Allowed: No Seconds_Behind_Master: 0 Master_SSL_Verify_Server_Cert: No Last_IO_Errno: 0 Last_IO_Error: Last_SQL_Errno: 0 Last_SQL_Error: Replicate_Ignore_Server_Ids: Master_Server_Id: 3304 Master_UUID: d7c35015-9dd1-11e7-b70d-005056aa19c3 Master_Info_File: mysql.slave_master_info SQL_Delay: 0 SQL_Remaining_Delay: NULL Slave_SQL_Running_State: Slave has read all relay log; waiting for more updates Master_Retry_Count: 86400 Master_Bind: Retrieved_Gtid_Set: d7c35015-9dd1-11e7-b70d-005056aa19c3:1-430778 Executed_Gtid_Set: 886f86e9-9dd6-11e7-ba30-005056aa6236:1-2, d7c35015-9dd1-11e7-b70d-005056aa19c3:1-430778 Auto_Position: 1 1 row in set (0.07 sec)
已經沒有錯誤了。OK
attention:
1.gtid_next是一個會話級別的參數,而gtid_purged則是一個全局級別的參數
本文出自 “漫漫SQL路......” 博客,請務必保留此出處http://l0vesql.blog.51cto.com/4159433/1970042
一次主從復制出錯解決與pt-slave-restart工具使用