首页 > 其他 > 详细

线上问题排查总结

时间:2020-05-23 15:50:30      阅读:73      评论:0      收藏:0      [点我收藏+]
  1. 线上故障产生原因
    1. 个人原因:基础不牢靠/自测不充分/前瞻性不足
    2. 团队原因:没有标准的研发流程,测试不充分
  2. 应急流程
    1. 保留现场:在不影响用户体验前提下,保留现场数据
    2. 恢复系统:初步分析原因,可通过回滚快速恢复
    3. 分析事故原因及影响:
    4. 线上事故回溯
  3. 定位/思路
    1. 一般分为可复现和不能稳定复现两类,可复现一般日志可以看出问题,一般不能稳定复现的一般与多线程有关:
      1. 通过 code review/ 压测/调用代码来增加多线程问题复现的概率;
      2. 利用相关工具分析线程堆栈,内存使用情况,死锁等;
      3. 宿主机的负载均衡,包括:cpu/磁盘/内存/网络IO等
    2. 系统最近是否又上线
    3. 基础平台最近是否有升级
    4. 依赖系统最近是否有上线
    5. 是否运营误操作导致故障
    6. 是否有网络抖动
    7. 业务是否上量
    8. 监控层面
      1. 系统层面:系统cpu利用率是否正常/系统负载/内存使用情况/网络IO/磁盘负载/IO等待/交换区使用/线程数/打开的文件句柄的等
      2. 应用层面:接口响应时间/吞吐量/调用频次/接口成功率
      3. 数据层面:数据库负载/慢sql/数据库连接数/缓存连接数/占用内存/吞吐量/响应时间/消息队列响应时间,负载/积压情况

线上问题排查总结

原文:https://www.cnblogs.com/gaoqing502/p/12942594.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!