# 通用宕机排查步骤

# 判断OA进程是否存活

出现问题后查看中间件进程是否还存在

# 进程不存在

1、检查是否生成宕机文件

  • 内存溢出文件(.hprof)

  • hs_err_pidxxxx.txt

  • 内存转储文件,mdmp、core dump等

2、检查操作系统

  • 系统日志是否存在oom kill记录

  • 系统日志是否存在java crash,生成core dump记录

  • 操作系统重启记录

  • last查看会话登录退出信息,与宕机时间是否吻合

  • 使用杀软、D盾等扫描系统木马病毒

  • 检查监控数据

3、检查应用日志是否正常退出

  • ctp.log有 System destoryed记录

  • 中间件日志有 Exit、halt 退出记录

  • 检查S1日志,是否备份数据库停止

4、检查安全软件

  • 检查杀软拦截记录

5、检查堡垒机

  • 有堡垒机且开启了审计日志的,可以检查问题发生时的操作审计日志、视频

# 进程存在

1、检查是否生成内存溢出文件(hprof)

2、检查服务器资源使用率,内存、cpu、磁盘io、网络

3、查看jvm内存使用率,gc状态

4、尝试手动抓取 ThreadDump 和 内存dump

5、检查应用、中间件日志,是否有类似oom、Stack overflow的信息

6、检查JDK版本,尝试升级高版本JDK

7、检查数据库、redis等状态

编撰人:wangyxyf