典型问题 网络导致的请求504

网络导致的请求504

典型问题 / 典型问题/性能/网络导致的请求504.md

网络导致的请求504

典型现象/特征

  1. 偶现接口超时或变慢
  2. 接口报错 504
  3. 异常请求集中在某个 pod 节点

排查确认步骤

  1. 1.先根据异常信息确认问题是单一 pod 还是全局范围异常;
  2. 2.如果是全局异常,可优先测试网络稳定性,若存在明显波动,则基本可以确认网络因素影响。
  3. 3.若问题集中在局部 pod,则应查看异常 pod 的监控指标( 系统监控查看说明),通常这类场景下 pod 本身监控基本正常,但所有打入该异常服务的请求处理都明显偏慢,甚至全部处理失败。
  4. 4.同时查看异常服务请求日志,如果日志中没有明显业务异常,而集群其他节点或上游访问层到该异常 pod 存在高延迟不稳定丢包等情况,则可进一步支持网络导致请求504 的判断。

分析工具

  1. 一键采集工具
  2. 系统监控查看说明
  3. 系统日志查看指引
  4. 网络连通性与延迟测试

常见应急恢复策略

  1. 优先确认异常 pod 是否需要摘流或迁移,并将网络侧异常现象同步给客户或相关网络运维人员;
  2. 在网络恢复前,尽量通过流量切换、避开异常节点等方式降低影响范围。