# 通用宕机排查步骤
# 判断OA进程是否存活
出现问题后查看中间件进程是否还存在
# 进程不存在
1、检查是否生成宕机文件
内存溢出文件(.hprof)
hs_err_pidxxxx.txt
内存转储文件,mdmp、core dump等
2、检查操作系统
系统日志是否存在oom kill记录
系统日志是否存在java crash,生成core dump记录
操作系统重启记录
last查看会话登录退出信息,与宕机时间是否吻合
使用杀软、D盾等扫描系统木马病毒
检查监控数据
3、检查应用日志是否正常退出
ctp.log有 System destoryed记录
中间件日志有 Exit、halt 退出记录
检查S1日志,是否备份数据库停止
4、检查安全软件
- 检查杀软拦截记录
5、检查堡垒机
- 有堡垒机且开启了审计日志的,可以检查问题发生时的操作审计日志、视频
# 进程存在
1、检查是否生成内存溢出文件(hprof)
2、检查服务器资源使用率,内存、cpu、磁盘io、网络
3、查看jvm内存使用率,gc状态
4、尝试手动抓取 ThreadDump 和 内存dump
5、检查应用、中间件日志,是否有类似oom、Stack overflow的信息
6、检查JDK版本,尝试升级高版本JDK
7、检查数据库、redis等状态
编撰人:wangyxyf