优享资讯 | 分享java服务cpu100%的解决过程

掘金后端 ( ) • 2024-04-30 17:57

背景

最近一个任务是优化一个导出的功能，但是点击功能时发现，程序长时间无反应，过一段时间又有反应，通过查看服务的监控发现，服务存在cpu持续100%的情况，下面分享一下我的处理方案和过程

2. 定位通过查看cpu的使用率发现服务cpu100%的情况，却在两个节点上都存在问题，于是查看cpu情况

a. 登录服务器执行top命令,查看cpu使用率

-- 此图妃100%时截图 b. 使用to -Hp [pid] 命令查看具体的线程占用cpu情况

我们可以看到506和856较高 c. 执行 printf "%x\n" [线程id] 将线程id转换成16进制,并在前缀前+0x,目的是等下在线程日志里面找到对应的线程具体信息，cpu最高时当时我得到的线程16进制为0x1a8 d. 执行jstack [pid] > jstack.txt

e. 通过c步骤得到的0x1a8查询jstack.txt

线程日志发现，这个线程其实是GC线程，也就说明存在fullgc导致了cpu持续过高，而fullgc都是由大对象导致的，这就以为这系统中存在着大对象。 f. 查看jvm内存情况

存在内存快照上找到了大对象

g. 查看程序日志

发现这个定时任务一直在执行，在类中发现了和大对象相同的类

e. 找到原因，此定时任务一次性查询20多万条数据到对象中，导致fullgc，关掉定时任务，服务恢复正常

本次问题的原因是fullgc导致cpu使用率过高，对于cpu过高的异常很多都是偶现的，所以不太容易排查，因为基本都要在出现100%时才能看到哪些线程出问题。