oncall的问题
1,问题处理,
包括客户提出的问题,运营提出的问题,他们是系统的使用者,会有各种各样的问题出现,
2,告警处理,
接入各类告警系统,这些都是通过日志分析统计出来的,所以要做日志整改,会发送邮件和短信,及时告警,告警要时刻处理,
包括流量的监控,功能拨测用例的执行,日志分析所有的请求有没有异常状态码,如果有就会告警,就要分析,
3,例行巡检,
3.1 要保证各类告警系统是正常的,告警系统不正常了,就不会有自动的告警了,这很危险,
3.2 服务器各项指标的监控,常态:cpu占用<15%,内存占用<30%,磁盘空间<50%等,
上面两步要保证各类告警系统和服务器的各项指标的趋势是稳定的,如果有激增,有阶梯式的,有量级的变化就要有所分析了,否则就会有潜在的风险
3.3 例行巡检关键功能,比如首页打开,主流程的畅通,接口正常,
4,回溯报告,
出现大的现网问题,都必须要有回溯报告,找到问题的根因,按照问题回溯------定位问题--------改进措施的思路,是什么,为什么,怎么办?有整套方案
原文:https://www.cnblogs.com/andy0816/p/13628535.html