背景 最近一个任务是优化一个导出的功能,但是点击功能时发现,程序长时间无反应,过一段时间又有反应,通过查看服务的监控发现,服务存在cpu持续100%的情况,下面分享一下我的处理方案
背景最近一个任务是优化一个导出的功能,但是点击功能时发现,程序长时间无反应,过一段时间又有反应,通过查看服务的监控发现,服务存在cpu持续100%的情况,下面分享一下我的处理方案和过程 处理过程1.程序cpu监控图 2. 定位 通过查看cpu的使用率发现服务cpu100%的情况,却在两个节点上都存在问题,于是查看cpu情况 a. 登录服务器执行top命令,查看cpu使用率 -- 此图非100%时截图 b. 使用to -Hp [pid] 命令查看具体的线程占用cpu情况 我们可以看到506和856较高 c. 执行 printf "%x\n" [线程id] 将线程id转换成16进制,并在前缀前+0x,目的是等下在线程日志里面找到对应的线程具体信息,cpu最高时当时我得到的线程16进制为0x1a8 d. 执行jstack [pid] > jstack.txt e. 通过c步骤得到的0x1a8查询jstack.txt 线程日志发现,这个线程其实是GC线程,也就说明存在fullgc导致了cpu持续过高,而fullgc都是由大对象导致的,这就以为这系统中存在着大对象。 f. 查看jvm内存情况 存在内存快照上找到了大对象 g. 查看程序日志 发现这个定时任务一直在执行,在类中发现了和大对象相同的类 e. 找到原因,此定时任务一次性查询20多万条数据到对象中,导致fullgc,关掉定时任务,服务恢复正常 结语本次问题的原因是fullgc导致cpu使用率过高,对于cpu过高的异常很多都是偶现的,所以不太容易排查,因为基本都要在出现100%时才能看到哪些线程出问题。 |
2021-06-05
2021-05-27
2021-05-26
2021-06-05
2021-05-16