问题诊断 快速诊断

快速诊断

问题诊断 / 问题诊断/快速诊断.md

快速诊断

对常见异常问题的判断依据进行了整理(默认高频问题排在最前),请大家从上至下逐个排查。

推荐优先使用下述工具自检:
一键采集分析 一键采集工具 ,快速采集环境和服务信息并自动分析诊断,输出诊断报告
一键巡检状态 一键巡检工具 ,快速巡检环境依赖组件服务等状态,输出巡检报告

宕机/重启

检测步骤: 确认服务宕机/重启 -> 查看日志关键字 -> 查看k8s事件

判断依据典型问题
1.查看对应pod宕机或已重启
2.日志中有OutOfMemoryError: Java heap space
3.检测生成了headDump文件
JVM堆内存溢出
1.查看对应pod宕机或已重启
2.日志中有 OutOfMemoryError: Metaspace 等信息
3.异常服务为如udc构建应用、公文、审批应用
元空间内存溢出
1.K8s管理界面查看对应pod不存在或重启
2.查看k8s事件,有:OOMKilled、CrashLoopBackOff等关键信息
K8S的oomkiller

超时/慢/接口报错

检测步骤: 确认异常服务范围 -> 查看典型报错异常码-> 查看日志异常 -> 检测中间件

判断依据典型问题
1.页面接口超时页面白屏,页面数据显示卡死,打开很慢
2.典型场景:发送接口超时/提交接口超时/知会人员超时
3.服务日志中存在sql耗时异常日志
数据库慢速sql
1.表单应用访问报504502网关或代理超时或表单应用报:实体数据失败/10001异常
2.确认异常服务为:公文、审批应用或udc搭建应用
应用表单加载导致超时
1.存在典型异常提示数据库错误超过最大连接数,查看服务日志,出现数据库连接异常
2.多个服务日志出现上述情况数据库异常情况
3.检测数据库主机,存在内存高磁盘满硬件资源异常
4.数据库服务异常,或测试常规sql,发现耗时偏高异常等
数据库异常
硬件资源异常
1.异常时间端业务高峰,平常时段接口正常
2.异常服务日志中存在短时间大量同类型业务日志
3.查看服务监控,存在流量突增
流量风暴导致接口超时
1.页面接口报网络错误10003错误
2.服务日志中明显异常,无timeout、error等信息
3.异常接口服务监控指标未发现明显异常
网络导致的请求504
1.服务大面积异常报错,涉及多个服务 ,或同一时间点出现多业务、多类型错误
2.应用服务未宕机
3.检查多个应用日志出现相似的中间件调用异常的日志
4.查看中间件服务主机监控,查看内存cpu磁盘等,有异常指标,可确认为 硬件资源异常
核心中间件服务异常
硬件资源异常
1.服务日志中存在redis操作异常
2.redis服务slow-log中存在大量该服务请求key
redis请求慢

更多分析

无典型现象满足,可参考通用分析策略:
系统页面报错
系统整体变慢