问题:查看队列数,发现队列延时一致高于某个值,于是来查查是什么问题导致。
我们可以看到延时都对应某个监控项。此时已某主机查看监控数据,以10.70.242.201为例。
我们可以看到延时的数据自从早上八点就没有更新了。
可以看出数据的不连续,而这种情况只出现在某些固定的item上。可也粗略推测是此数据的某些特征导致延时,
我们发现延时严重的item多半主动检测
查看是否开启了主动检测ServerActive指令是否开启?查看开启了。
agent日志文件
1592:20170914:115210.600 active check data upload to [192.168.96.115:10051] started to fail ([connect] cannot connect to [[192.168.96.115]:10051]: (null))
1592:20170914:115351.720 active check configuration update from [192.168.96.115:10051] started to fail (cannot connect to [[192.168.96.115]:10051]: (null))
我们可以看到agent端上传主动检测的数据时,无法连接到主机。这个表明agent可以从server端获取监控的items。
server端日志
cannot send list of active checks to "192.168.242.201": host [WIN-HS2LFD8I4SL] not found
这是由于agent端和server端标记主机的方式不同,主动检测时,agent的身份是配置文件中hostname的值,如果hostname没有指明,则使用主机名代替,而我们server端标识主机使用的IP导致无法识别agent 主机。
解决问题时,一步步验证猜测。往往日志文件会给我们很大的提示。
原文:http://blog.51cto.com/13589448/2068015