硬件资源异常
典型现象/特征
- 存在主机告警
- 某类服务功能异常或大面积服务异常
排查确认步骤
- 1.如果已有
主机告警,应先确认告警内容是否真实存在,若确认属实,可直接按对应硬件资源问题处理。 - 2.若没有明确告警,则需先确认异常服务范围并检测服务状态;
- 3.如果服务本身状态正常,应继续检查中间件和主机资源信息,重点关注
内存不足、磁盘满等常见问题,同时也要关注IO 指标,IO 持续过高时同样可能导致业务异常。 - 4.若服务本身状态异常,则应优先查看异常服务监控并结合日志分析,确认是否存在内存不足、磁盘写满导致
日志无法写入等特殊情况。
分析工具
常见应急恢复策略
- 优先处理硬件资源异常本身,例如释放磁盘空间、恢复主机可用资源、处理高 IO 或内存不足问题;
- 在资源恢复后,再确认受影响服务和中间件是否已经自动恢复,必要时补充进行服务重启或迁移。