版本:MySQL5.7.22


一、报错现象


dba:(none)> start slave;

ERROR 1872 (HY000): Slave failed to initialize relay log info structure from the repository

这个时候查看error.log:


2018-08-07T09:28:12.605775Z 0 [ERROR] Failed to open the relay log './localhost-relay-bin.000001' (relay_log_pos 4).
2018-08-07T09:28:12.605792Z 0 [ERROR] Could not find target log file mentioned in relay log info in the index file '/application/mysql/relay-log/mysql-relay-bin.index' during relay log initialization.
2018-08-07T09:28:12.606062Z 0 [ERROR] Slave: Failed to initialize the master info structure for channel ''; its record may still be present in 'mysql.slave_master_info' table, consider deleting it.
2018-08-07T09:28:12.606298Z 0 [ERROR] Failed to create or recover replication info repositories.
2018-08-07T09:28:12.606316Z 0 [Note] Some of the channels are not created/initialized properly. Check for additional messages above. You will not be able to start replication on those channels until the issue is resolved and the server restarted.


那如何解决呢?先来简单的了解MySQL Relay log的基础知识:从报错上看,意思是启动slave时,使用repository中信息初始化relay log结构失败了。为什么失败了?原来是从mysql-relay-bin.index文件中找不到localhost-relay-bin.000001文件。到这里,答案就很清楚了,由于我使用的是冷备份文件恢复的实例,在mysql库中的slave_relay_log_info表中依然保留之前relay_log的信息,所以导致启动slave报错。


二、MySQL Relay log介绍


在MySQL复制结构下,Slave服务器会产生三种日志文件,用来保存主库的二进制日志事件以及relay log已执行到的位置和状态。


1、relay log 文件:由IO thread线程从主库读取的二进制日志事件组成,该日志被Slave上的SQL thread线程执行,从而实现数据的复制。


2、master info log:该文件保存slave连接master的状态以及配置信息,如用户名,密码,日志执行的位置等。在5.6版本之前,都是使用master.info文件,从5.6开始,通过在my.cnf  中配置 --master-info-repository=TABLE。这些信息会被写入mysql.slave_master_info 表中,代替原来的master.info文件了。


3、relay log info log:该文件保存slave上relay log的执行位置。在5.6版本之前,都是使用relay-log.info文件,从5.6开始,通过在my.cnf中配置 --relay-log-info-repository=TABLE,使用mysql.slave_relay_log_info表代替原来的文件。每次当slave上执行start slave时,就会读取该表中的位置信息。


新版本使用表来代替原来的文件,主要为了crash-safe replication,从而大大提高从库的可靠性。为了保证意外情况下从库的可靠性,mysql.slave_master_info和mysql.slave_relay_log_info表必须为事务性的表,从5.6.6起,这些表默认使用InnoDB存储引擎。在5.6.5及之前的版本默认使用MyISAM引擎,可用下面语句进行转换:


ALTER TABLE mysql.slave_master_info ENGINE=InnoDB;
ALTER TABLE mysql.slave_relay_log_info ENGINE=InnoDB;

【注意】不要试图手工的更新、插入、删除以上两个表的内容,以免出现意料不到的问题。


三、问题解决


通过上面的报错以及relay log介绍,很容易知道由于mysql.slave_relay_log_info表中保留了以前的复制信息,导致新从库启动时无法找到对应文件,那么我们清理掉该表中的记录不就可以了。再次提醒,不要手动删该表数据,MySQL已经提供工具给我们了:reset slave:


reset slave干的那些事:


1、删除slave_master_info ,slave_relay_log_info两个表中数据;2、删除所有relay log文件,并重新创建新的relay log文件;3、不会改变gtid_executed 或者 gtid_purged的值

下面解决问题:

1,
dba:(none)> reset slave;
Query OK, 0 rows affected (0.00 sec)
2,
dba:(none)> change master to ......
3,
dba:(none)> start slave;
Query OK, 0 rows affected (0.00 sec)

到这里问题解决了。


【经验】:以后用冷备份恢复实例后,在启动slave前,先进行reset slave清空下以前的旧信息。