典型问题 硬件资源异常

硬件资源异常

典型问题 / 典型问题/性能/硬件资源异常.md

硬件资源异常

典型现象/特征

  1. 存在主机告警
  2. 某类服务功能异常或大面积服务异常

排查确认步骤

  1. 1.如果已有主机告警,应先确认告警内容是否真实存在,若确认属实,可直接按对应硬件资源问题处理。
  2. 2.若没有明确告警,则需先确认异常服务范围并检测服务状态;
  3. 3.如果服务本身状态正常,应继续检查中间件和主机资源信息,重点关注内存不足磁盘满等常见问题,同时也要关注 IO 指标,IO 持续过高时同样可能导致业务异常。
  4. 4.若服务本身状态异常,则应优先查看异常服务监控并结合日志分析,确认是否存在内存不足、磁盘写满导致日志无法写入等特殊情况。

分析工具

  1. 一键采集工具
  2. 一键巡检工具
  3. 系统监控查看说明
  4. 系统日志查看指引
  5. 系统运维接口

常见应急恢复策略

  1. 优先处理硬件资源异常本身,例如释放磁盘空间、恢复主机可用资源、处理高 IO 或内存不足问题;
  2. 在资源恢复后,再确认受影响服务和中间件是否已经自动恢复,必要时补充进行服务重启或迁移。