1. 程式人生 > >一次主從復制出錯解決與pt-slave-restart工具使用

一次主從復制出錯解決與pt-slave-restart工具使用

mysql 復制 slave

緣由:

測試環境中,主庫執行了DDL語句增加一個字段的長度後,從庫報無法修改這個字段長的的問題,且這個字段的長度已經介於原來的長度和目標長度中間了


環境

5.7.19 GTID雙主復制


解決步驟:

1.嘗試手工修改字段長度,恢復到未修改前的長度,重啟slave進程。結果:失敗,報同樣的錯誤,錯誤編號1677

2.嘗試手工修改字段長度,同步到修改後長度,跳過這個事務:

mysql>stop slave;

mysql>set gtid_next="d7c35015-9dd1-11e7-b70d-005056aa19c3:51629";  
  ##這裏需要註意,由於開啟了雙主GTID復制,show master status和Executed_gtid_set會有兩個GTID值,其中一個為自己的GTID,另一個為主的GTID。
  ##設置的時候只要把主庫的GTID寫進“”即可。自身的GTID不需要指明,但如果使用set gtid_purged的方式跳過,是需要可以指明兩個GTID的

mysql>begin;commit;
  ##設置後,插入一個空事務進行更新GTID。
  
mysql>set gtid_next=‘automatic‘;
  ##官方手冊規定:精確的指定過一次GTID,並產生一次事務後,後面必須再次指定一次gtid_next的模式(是模式,不是精確值,官方手冊這裏沒有寫清楚)
  ##“After this variable has been set to UUID:NUMBER, and a transaction has been committed or rolled back, an explicit SET GTID_NEXT statement must again be issued before any other statement.”
mysql>start slave;

講道理,這裏就應該正常了,但還是報同樣的錯誤,一次次的這樣操作也很麻煩,


3.批量跳過復制錯誤有如下兩個方法

使用slave-skip-errors=123,456,789,但這個參數不是動態參數,需要寫進配置文件並重啟,而且也不方便觀測

使用percona公司的pt-slave-restart工具

pt-slave-restart是percona-toolkit工具集中的一個專用於處理復制錯誤的工具

原理:根據設置,跳過從主庫過來的指定錯誤事務

1.支持GTID復制,但是不支持多線程復制,工具分不清到底哪個線程復制出了問題

2.除了主機指定外的實用參數:

--always :永不停止slave線程,手工停止也不行

--ask-pass :替換-p命令,防止密碼輸入被身後的開發窺屏

--error-numbers :指定跳過哪些錯誤,可用,進行分隔

--error-text :根據錯誤信息進行匹配跳過

--log :輸出到文件

--recurse :在主端執行,監控從端

--runtime :工具執行多長時間後退出:默認秒, m=minute,h=hours,d=days

--slave-user --slave-password :從庫的賬號密碼,從主端運行時使用

--skip-count :一次跳過錯誤的個數,膽大的可以設置大些,不指定默認1個

--master-uuid :級聯復制的時候,指定跳過上級或者上上級事務的錯誤

--until-master :到達指定的master_log_pos,file位置後停止,

格式:”file:pos“

--until-relay :和上面一樣,但是時根據relay_log的位置來停止

安裝:

  centos#yum install https://www.percona.com/redir/downloads/percona-release/redhat/percona-release-0.1-4.noarch.rpm
  centos#yum search percon-tool
  centos#yum -y install yum install percona-toolkit


查看幫助文件:

  perldoc /usr/bin/pt-slave-restart


運行工具:

  pt-slave-restart --user=root --password=123456 --socket=/data/mysql/3304/tmp/mysql3304.sock --error-numbers=1677


輸出如下:

Not checking slave because relay log file or position has not changed (file relay-bin.000002 pos 205804892)
2017-09-30T12:55:03 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002   205805634 1677 
Not checking slave because relay log file or position has not changed (file relay-bin.000002 pos 205805634)
Not checking slave because relay log file or position has not changed (file relay-bin.000002 pos 205805634)
Not checking slave because relay log file or position has not changed (file relay-bin.000002 pos 205805634)
2017-09-30T12:55:03 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002   205806382 1677 
2017-09-30T12:55:04 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002   205807125 1677 
2017-09-30T12:55:04 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002   205807873 1677 
Not checking slave because relay log file or position has not changed (file relay-bin.000002 pos 205807873)
2017-09-30T12:55:20 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002   205997621 1677 
2017-09-30T12:55:21 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002   205998353 1677 
2017-09-30T12:55:22 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002   205999085 1677 
2017-09-30T12:55:23 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002   205999823 1677 
2017-09-30T12:55:24 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002   206000565 1677 
2017-09-30T12:55:24 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002   206001307 1677 
2017-09-30T12:55:24 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002   206002049 1677
2017-09-30T12:55:24 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002   206002783 1677 
2017-09-30T12:55:24 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002   206003517 1677 
2017-09-30T12:55:24 S=/data/mysql/3304/tmp/mysql3304.sock,p=...,u=root relay-bin.000002   206004253 1677


查看從庫線程情況:

************** 1. row ***************************
                         Slave_IO_State: Waiting for master to send event
                  Master_Host: 192.168.100.200
                  Master_User: bt_repl
                  Master_Port: 3304
                Connect_Retry: 60
              Master_Log_File: 3304binlog.000002
          Read_Master_Log_Pos: 665635124
               Relay_Log_File: relay-bin.000006
                Relay_Log_Pos: 2080902
        Relay_Master_Log_File: 3304binlog.000002
             Slave_IO_Running: Yes
            Slave_SQL_Running: Yes
                   Last_Errno: 0
                   Last_Error: 
                 Skip_Counter: 0
          Exec_Master_Log_Pos: 665635124
              Relay_Log_Space: 2081454
              Until_Condition: None
               Until_Log_File: 
                Until_Log_Pos: 0
           Master_SSL_Allowed: No
        Seconds_Behind_Master: 0
Master_SSL_Verify_Server_Cert: No
                Last_IO_Errno: 0
                Last_IO_Error: 
               Last_SQL_Errno: 0
               Last_SQL_Error: 
  Replicate_Ignore_Server_Ids: 
             Master_Server_Id: 3304
                  Master_UUID: d7c35015-9dd1-11e7-b70d-005056aa19c3
             Master_Info_File: mysql.slave_master_info
                    SQL_Delay: 0
          SQL_Remaining_Delay: NULL
      Slave_SQL_Running_State: Slave has read all relay log; waiting for more updates
           Master_Retry_Count: 86400
                  Master_Bind: 
           Retrieved_Gtid_Set: d7c35015-9dd1-11e7-b70d-005056aa19c3:1-430778
            Executed_Gtid_Set: 886f86e9-9dd6-11e7-ba30-005056aa6236:1-2,
d7c35015-9dd1-11e7-b70d-005056aa19c3:1-430778
                Auto_Position: 1
         1 row in set (0.07 sec)


已經沒有錯誤了。OK






attention:

1.gtid_next是一個會話級別的參數,而gtid_purged則是一個全局級別的參數


本文出自 “漫漫SQL路......” 博客,請務必保留此出處http://l0vesql.blog.51cto.com/4159433/1970042

一次主從復制出錯解決與pt-slave-restart工具使用