当前,在Alertmanager中触发新警报时,有两种选择:
这在小型环境中效果很好,但可能会导致大型团队出现问题:
kthxbye是一种基于sidecar 模式的
kthxbye将持续扩展将要到期但与触发警报匹配的静音。仅当沉默与任何警报都不匹配时,它们才会被允许过期。
- 新警报开始在Alertmanager中触发
- 用户使用带有预定义前缀和短持续时间的注释为其创建沉默
- kthxbye将不断轮询Alertmanager的警报和静音:
- 获取所有沉默列表
- 获取所有静音警报的列表
- 查找所有以预定义前缀开头且即将过期的沉默
- 对于每一个这样的沉默:
- 检查静音是否与任何当前触发的警报匹配
- 如果是,则沉默持续时间将延长
- 如果没有,那么沉默将被终止
这样可以使警报静音,而不必担心为沉默选择正确的持续时间,因此您可以有效地使特定的故障行为静音而不是警报
kthxbye -alertmanager.uri http://alertmanager.example.com:9093
kthxbye 的作者同时也是karma的作者,都是很不错的prometheus Alertmanager 相关的工具
https://github.com/prymitive/kthxbye
kthxbye一种解决prometheus alertmanager 报警确认的守护进程
原文:https://www.cnblogs.com/rongfengliang/p/12881016.html