网络导致的请求504
典型现象/特征
- 偶现接口超时或变慢
- 接口报错 504
- 异常请求集中在某个 pod 节点
排查确认步骤
- 1.先根据异常信息确认问题是单一 pod 还是全局范围异常;
- 2.如果是全局异常,可优先测试网络稳定性,若存在明显波动,则基本可以确认网络因素影响。
- 3.若问题集中在局部 pod,则应查看异常 pod 的监控指标( 系统监控查看说明),通常这类场景下 pod 本身监控基本正常,但所有打入该异常服务的请求处理都明显偏慢,甚至全部处理失败。
- 4.同时查看异常服务请求日志,如果日志中没有明显业务异常,而集群其他节点或上游访问层到该异常 pod 存在
高延迟、不稳定或丢包等情况,则可进一步支持网络导致请求504的判断。
分析工具
常见应急恢复策略
- 优先确认异常 pod 是否需要摘流或迁移,并将网络侧异常现象同步给客户或相关网络运维人员;
- 在网络恢复前,尽量通过流量切换、避开异常节点等方式降低影响范围。