数据库内存不足/数据库异常
典型现象/特征
- 大量业务处理反馈很慢
- 接口处理慢,出现 SQL 超时等现象
- 存在主机告警
排查确认步骤
- 1.可先观察异常接口和慢接口是否比较分散、没有明显集中在某个单独服务;
- 2.然后抽取几个异常接口对应的服务,检查其监控指标,如果内存、CPU 等均无明显异常,则应继续查看相关服务日志,确认是否存在
数据库连接超时、SQL 执行耗时长、无法获取数据库连接等信息。 - 3.随后检查数据库服务器,确认是否存在慢 SQL,并结合数据库监控判断资源负载是否偏高。
- 4.最后检查数据库物理机,确认是否存在内存不足、磁盘空间不足等资源问题。( 硬件资源异常)
分析工具
常见应急恢复策略
- 如果确认是数据库服务本身异常,应优先恢复数据库服务可用性;
- 单节点故障可考虑搭建数据库集群(主从、主备等)
- 如果是数据库主机资源不足,则需要联系客户运维处理主机资源问题,例如扩容、清理磁盘或重启相关主机。处理完成后,再结合慢 SQL 和应用日志继续追查根因。