seconds_behind_master的陷阱和pt-heartbeat

时间：2015-03-10 02:18:23 阅读：675 评论：0 收藏：0 [点我收藏+]

Seconds_behind_master

In essence, this field measures the time difference in seconds between the slave SQL thread and the slave I/O thread.

binlog中每个binlog events都会附上执行时的timestamp，MySQL将当前系统的时间戳同SQL thread正在执行的binlog event上的时间戳做比较，这个差值就Seconds_Behind_Master的值。

主备时延 = master到relay_log的时延 + relay_log到sql_thread的时延，

当后者为0时seconds_behind_master也为0，而无法检测到前者的lag，即该参数只有在sql thread执行binlog event时才被计算。

Mysql自身有预防机制：

1 binlog dump被kill时会通知备库；

2 备库长时间没有收到主库变更，则会自动重连，由slave-net-timeout/master-connect-retry/master-retry-count决定；

改进

1 采用别的监控方法，如pt-heartbeat，主库定期将当前时间更新相应表记录，备库读取并与备库当前时间比较来获取延迟时间；

只要表中有记录，备库就可以实时计算lag，可避免seconds_behind_master=0可能带来的误报。

2 配置slave-net-timeout/master-connect-retry/master-retry-count(后两种在change master中指定)，备库过了slave-net-timeout(默认3600s)仍未从主库收到信息则会尝试重连，master-connect-retry为重连次数，master-retry-count为每次间隔时间(默认皆为60s)；

http://www.woqutech.com/?p=1116

Pt-heartbeat

工作原理：

1，在主库上创建一张heartbeat表，按照一定的时间频率更新该表的字段（把时间更新进去）。

2，连接到从库上检查复制的时间记录，和从库的当前系统时间进行比较，得出时间的差异。

在主库上开启守护进程来更新test.heartbeat表：

pt-heartbeat -D test --update -h master-server --daemonize

监控从的延迟情况：

pt-heartbeat -D test --monitor -h slave-server #一直执行，不退出

pt-heartbeat -D test--check h=slave-server #执行一次就退出

参数

--check

检查从的延迟，检查一次就退出，除非指定了--recurse会递归的检查所有的从服务器。

--monitor

持续监控从的延迟情况。通过--interval指定的间隔时间，打印出从的延迟信息，通过--file则可以把这些信息打印到指定的文件。

--daemonize

执行时，放入到后台执行

--file

打印--monitor最新的记录到指定的文件，很好的防止满屏幕都是数据的烦恼。

--frames

在--monitor里输出的[]里的记录段，默认是1m,5m,15m。可以指定1个，如：--frames=1s，多个用逗号隔开。可用单位有秒（s）、分钟（m）、小时（h）、天（d）。

--interval

检查、更新的间隔时间。默认是见是1s。最小的单位是0.01s，最大精度为小数点后两位，因此0.015将调整至0.02。

--log

开启daemonized模式的所有日志将会被打印到制定的文件中。

--update

更新主上的心跳表。

--replace

使用--replace代替--update模式更新心跳表里的时间字段，这样的好处是不用管表里是否有行。

--stop

停止运行该工具（--daemonize），在/tmp/目录下创建一个“pt-heartbeat-sentinel” 文件。后面想重新开启则需要把该临时文件删除，才能开启（--daemonize）。

--table

指定心跳表名，默认heartbeat。

--create-table

在主上创建心跳监控的表，如果该表不存在。可以自己建立，建议存储引擎改成memory。通过更新该表知道主从延迟的差距。

CREATE TABLE heartbeat (

ts varchar(26) NOT NULL,

server_id int unsigned NOT NULL PRIMARY KEY,

file varchar(255) DEFAULT NULL, -- SHOW MASTER STATUS

position bigint unsigned DEFAULT NULL, -- SHOW MASTER STATUS

relay_master_log_file varchar(255) DEFAULT NULL, -- SHOW SLAVE STATUS

exec_master_log_pos bigint unsigned DEFAULT NULL -- SHOW SLAVE STATUS

);

也可简化为

CREATE TABLE heartbeat (

id int NOT NULL PRIMARY KEY,

ts datetime NOT NULL

);

heratbeat表一直在更改ts，若是手工建表则必须手工插入一条记录

INSERT INTO heartbeat (ts, server_id) VALUES (NOW(), N);

INSERT INTO heartbeat (ts, server_id) VALUES (UTC_TIMESTAMP(), N);

测试案例

Master 10.0.0.1:3306

Slave 10.0.0.2:3306

1，在主上运行：--daemonize表示守护进程，后台运行。

[root@test_10.0.0.1 ~]# pt-heartbeat --user=root --ask-pass --host=127.0.0.1 --create-table -D test --interval=1 --update --replace --daemonize

Enter password:

[root@test_10.0.0.1 ~]#

3.在主上运行监测复制延迟

复制代码

[root@test_10.0.0.1 ~]# pt-heartbeat -D test --table=heartbeat --monitor -h 10.0.0.2 –uroot -p

0.00s [ 0.00s, 0.00s, 0.00s ]

0表示从没有延迟。 [ 0.00s, 0.00s, 0.00s ] 表示1m,5m,15m的平均值。可以通过--frames去设置。

如何关闭主上面执行的后台进程。可以用参数--stop 去关闭：

[root@test_10.0.0.1 ~]# pt-heartbeat --stop

Successfully created file /tmp/pt-heartbeat-sentinel

[root@test_10.0.0.1 ~]#

这样就把在主上开启的进程杀掉了，后续要继续开启后台进行的话，需要把/tmp/pt-heartbeat-sentinel 文件删除，否则启动不了。

参考资料

http://www.cnblogs.com/gomysql/p/3687329.html

seconds_behind_master的陷阱和pt-heartbeat

原文：http://blog.itpub.net/15480802/viewspace-1452213/

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)