快速诊断
对常见异常问题的判断依据进行了整理(默认高频问题排在最前),请大家从上至下逐个排查。
推荐优先使用下述工具自检:
一键采集分析 一键采集工具 ,快速采集环境和服务信息并自动分析诊断,输出诊断报告
一键巡检状态 一键巡检工具 ,快速巡检环境依赖组件服务等状态,输出巡检报告
宕机/重启
检测步骤: 确认服务宕机/重启 -> 查看日志关键字 -> 查看k8s事件
| 判断依据 | 典型问题 |
|---|---|
| 1.查看对应pod宕机或已重启 2.日志中有OutOfMemoryError: Java heap space 3.检测生成了headDump文件 | JVM堆内存溢出 |
| 1.查看对应pod宕机或已重启 2.日志中有 OutOfMemoryError: Metaspace 等信息 3.异常服务为如udc构建应用、公文、审批应用 | 元空间内存溢出 |
| 1.K8s管理界面查看对应pod不存在或重启 2.查看k8s事件,有:OOMKilled、CrashLoopBackOff等关键信息 | K8S的oomkiller |
超时/慢/接口报错
检测步骤: 确认异常服务范围 -> 查看典型报错异常码-> 查看日志异常 -> 检测中间件
| 判断依据 | 典型问题 |
|---|---|
1.页面接口慢、超时,页面白屏,页面数据显示卡死,打开很慢 2.典型场景: 发送接口超时/提交接口超时/知会人员超时 3.服务日志中存在sql耗时异常日志 | 数据库慢速sql |
1.表单应用访问报504,502网关或代理超时或表单应用报:实体数据失败/10001异常 2.确认异常服务为:公文、审批应用或udc搭建应用 | 应用表单加载导致超时 |
1.存在典型异常提示数据库错误或超过最大连接数,查看服务日志,出现数据库连接异常 2.多个服务日志出现上述情况数据库异常情况 3.检测数据库主机,存在 内存高或磁盘满等 硬件资源异常4.数据库服务异常,或测试常规sql,发现耗时偏高异常等 | 数据库异常 硬件资源异常 |
| 1.异常时间端业务高峰,平常时段接口正常 2.异常服务日志中存在短时间大量同类型业务日志 3.查看服务监控,存在流量突增 | 流量风暴导致接口超时 |
1.页面接口报网络错误或10003错误2.服务日志中 无明显异常,无timeout、error等信息 3.异常接口服务监控指标未发现明显异常 | 网络导致的请求504 |
1.服务大面积异常报错,涉及多个服务 ,或同一时间点出现多业务、多类型错误 2.应用服务未宕机 3.检查多个应用日志出现相似的中间件调用异常的日志 4.查看中间件服务主机监控,查看 内存、cpu、磁盘等,有异常指标,可确认为 硬件资源异常 | 核心中间件服务异常 硬件资源异常 |
| 1.服务日志中存在redis操作异常 2.redis服务slow-log中存在大量该服务请求key | redis请求慢 |