Druid参数配置导致的内存占用以及线上问题分析的一般方法

Java小透明 2021-09-13

2682

一、问题背景

问题概述

线上接口人工采集excel数据进行录入的时候系统报了OOM错误：java.lang.OutOfMemoryError: GC overhead limit exceeded
。

这个错误类型出现的时机是JVM花了绝大多数的CPU执行GC，但是只回收了很小的一部分内存空间时，JVM会抛出这个类型的OOM错误。

存在问题

优化前的接口由于内存占用非常大，上传大一点的文件直接GG，需要对代码进行优化。但是代码优化后发现录入时候内存一直居高不下。

二、优化方案&测试场景

方案分析

java领域对excel进行处理的框架基本上都是Apache的POI，但是POI的问题在于他会存在excel中的各种样式、批注等我们实际上并不关心的内容，一旦读取文件到内存中会占用翻几番的内存。

其实对于任何大数据量的问题，核心思路都是一样的：

内存放不下？搞到硬盘上！
一次数据量太大？少食多餐分批搞！

项目里面针对excel读取用的是EasyExcel框架，在硬盘上存放文件，用类似滑动窗口的形式读取整个文件，以此来减少一次性加载占用大内存，并且以1W行记录为一批，用完就丢弃以释放内存，避免一次性读取所有对象撑爆内存。

测试环境

系统环境

测试数据
测试数据为20W11列的excel数据，文件格式是.xlsx，文件大小是12.7MB
注：xlsx文件底层是xml+zip压缩存储的，因此解压后的文件会占用非常大的内存，xml的信息熵你懂的

JVM参数

为了快速复现问题，JVM的堆大小配置成了500M

-Xms500M -Xmx500M复制

三、问题定位分析

一般来说，Java领域出现非bug类的问题百分之九十都是由于内存/GC出现了问题导致的。但是具体是哪方面比如网络、上下游系统、内存泄漏等，需要具体问题具体分析，要分析问题第一步就是要获取系统的运行状态。

下面是上传文件时候的GC情况。

可以看出来是内存一直被占用，无法被释放(手动执行GC也不行)，但是问题在于上传的请求已经结束，理论上此次上传占用的内存全部可以被回收掉，不应该出现内存占用的问题。

一般来说如果内存占用并且没有被释放掉，我的经验是有以下二种可能：

内存发生了泄漏，使用完对象后有全局变量引用，导致无法被GC

程序某个地方发生阻塞等待，导致方法栈帧里面引用的对象无法被释放，常见的有数据库阻塞

接下来就是要明确占用的内存里面到底是哪些东西？dump下来JVM的堆内存，在jvisualvm中进行分析。利用OQL对比较大的String进行筛选结果如下：

发现大量的String对象是SQL语句，这些就是文件解析后进行执行的SQL语句，那么问题来了，为啥这些SQL并没有被回收？一般第一直觉出现SQL往往会联想到Mybatis框架上去，因为他是与SQL关系非常紧密的地方，但是经过对Mybatis框架代码的review过后发现，并不是Mybatis缓存的问题。当然日志中也可能出现SQL，不过也很快被我排除了。

如果说请求完成了，一般请求中产生的对象也会被释放，那么有什么是不会释放的呢？最终想到一个：数据库连接Connection，Connection与执行SQL强相关，并且Connection一般都是从池中获取，使用完后会放回池中，与当前的现象非常的符合。而后对sql语句的GC Root分析也证明了这一点：