首页 > 其他 > 详细

怎么保证现网的可靠性?

时间:2020-09-07 21:08:06      阅读:54      评论:0      收藏:0      [点我收藏+]

oncall的问题

1,问题处理,

包括客户提出的问题,运营提出的问题,他们是系统的使用者,会有各种各样的问题出现,

 

2,告警处理,

接入各类告警系统,这些都是通过日志分析统计出来的,所以要做日志整改,会发送邮件和短信,及时告警,告警要时刻处理,

包括流量的监控,功能拨测用例的执行,日志分析所有的请求有没有异常状态码,如果有就会告警,就要分析,

 

3,例行巡检,

3.1 要保证各类告警系统是正常的,告警系统不正常了,就不会有自动的告警了,这很危险,

3.2 服务器各项指标的监控,常态:cpu占用<15%,内存占用<30%,磁盘空间<50%等,

上面两步要保证各类告警系统和服务器的各项指标的趋势是稳定的,如果有激增,有阶梯式的,有量级的变化就要有所分析了,否则就会有潜在的风险

3.3 例行巡检关键功能,比如首页打开,主流程的畅通,接口正常,

 

4,回溯报告,

出现大的现网问题,都必须要有回溯报告,找到问题的根因,按照问题回溯------定位问题--------改进措施的思路,是什么,为什么,怎么办?有整套方案

 

怎么保证现网的可靠性?

原文:https://www.cnblogs.com/andy0816/p/13628535.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!