服务器宕机排查

avatar
作者
筋斗云
阅读量:0

一、判断真假死机

1、真死机:服务器确实宕机了,机器登陆不上,ping 不通,需要让机房重启

2、假死机:由于硬件资源暂时性地被消耗殆尽,因而无法对外部指令进行响应的现象。

比如cpu 内存 带宽跑满,可观察监控,再宕机前的资源消耗情况,等待一会,看能否恢复,此时机器比较卡顿,能ping 通,尝试登陆,再能登陆的时候,可能需要kill或者重启进程。实在不行,只能让机房强制重启。

二、宕机可能原因:服务器(硬件+系统),应用程序,人为

  • 服务器硬件故障,比如内存故障,需要更换;
  • 服务器配置过低,导致即便访问量不算太高也超出了系统承载能力,需要提高配置;
  • 某些系统参数配置不合理,比如fd个数或允许连接数过低等;
  • 系统内核bug,比如软死锁等,需要升级内核;
  • 机器压力过大,超出系统承载能力,包括正常的短暂性突增,或者异常访问,比如黑客攻击等;
  • 应用程序本身存在bug,比如死循环,消耗系统资源的逻辑导致资源耗尽;
  • 多线程造成的死锁现象,互相等待对方释放资源;
  • 人为误操作导致的

三、排查思路

1、查看系统日志 /var/log/messages,分析宕机时间前后的系统日志,看看是否有明显的报错,比如oom或内核bug;

2、查看监控,在宕机前有没有指标异常,比如CPU或内存突增,可能短暂突发上量超过系统承载能力;

3、硬件故障,可以看下/var/log/dmesg,或者登录远控查看系统日志,比如内存故障等,可能需要更换;

四、如何处理

  • 首先恢复业务
  • 分析问题
  • 排查原因
  • 制定解决方案
  • 完善监控,及时发现
  • 复盘总结,避免再次发生
  • 经验积累,知识库

    广告一刻

    为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!