掘金 后端 ( ) • 2024-04-30 17:57

背景

最近一个任务是优化一个导出的功能,但是点击功能时发现,程序长时间无反应,过一段时间又有反应,通过查看服务的监控发现,服务存在cpu持续100%的情况,下面分享一下我的处理方案和过程

处理过程

  1. 程序cpu监控图

image.png 2. 定位 通过查看cpu的使用率发现服务cpu100%的情况,却在两个节点上都存在问题,于是查看cpu情况

a. 登录服务器执行top命令,查看cpu使用率

image.png

-- 此图妃100%时截图 b. 使用to -Hp [pid] 命令查看具体的线程占用cpu情况

image.png 我们可以看到506和856较高 c. 执行 printf "%x\n" [线程id] 将线程id转换成16进制,并在前缀前+0x,目的是等下在线程日志里面找到对应的线程具体信息,cpu最高时当时我得到的线程16进制为0x1a8 d. 执行jstack [pid] > jstack.txt

image.png e. 通过c步骤得到的0x1a8查询jstack.txt

image.png

线程日志发现,这个线程其实是GC线程,也就说明存在fullgc导致了cpu持续过高,而fullgc都是由大对象导致的,这就以为这系统中存在着大对象。 f. 查看jvm内存情况

e6cd850c384a15383fca47fbca8b1a37.jpg 存在内存快照上找到了大对象

g. 查看程序日志

image.png

发现这个定时任务一直在执行,在类中发现了和大对象相同的类

image.png e. 找到原因,此定时任务一次性查询20多万条数据到对象中,导致fullgc,关掉定时任务,服务恢复正常

结语

本次问题的原因是fullgc导致cpu使用率过高,对于cpu过高的异常很多都是偶现的,所以不太容易排查,因为基本都要在出现100%时才能看到哪些线程出问题。