Java8 使用 easyExcel 导入 4g 大小的 csv 文件

This topic created in 833 days ago, the information mentioned may be changed or developed.

粗略观测，在没完成导入前内存占用已经超 48g 。粗略估算好像是因为我需要将所有的行记录都放到一个 list ，最后聚合处理，这个 list 至少有 9 千万条以上的记录。

以上，何解？

1.多次读取每次只保存需要聚合的数据的一部分.缺点，同一个文件要读好多次预计会非常耗时

2.每次读取一行记录都存入数据库，最后从数据库取用。缺点，需要额外的数据库表结构，且 mysql 单表存储也会有查询压力（可以考虑分表，但这个方案挺麻烦的）

Supplement 1 · Apr 17, 2024

不好意思，昨天的描述非常粗略且不完整。对于需求的描述如下：
是将对方系统导出的 csv ，导入到我方系统。其中是有一些映射关系的。
有两类 csv ，a 类固定很大，至少 1.5g 以上，b 类可大可小，最大有 4g 大，小的也有几十 m 。楼主最初写这个程序的时候，贪图省事，将 b 类文件的记录相同的某 id 列聚合处理（一组数据含有开始结束等标识）。楼主又贪图省事（毕竟算低频使用的初始导入程序），选择把 csv 全部加载入内存，得到两个 list 方便操作。
当然了，如果要改一下，使用 easyExcel 或者其他工具逐行读取分若干个小的批次处理也是 OK 的，只是楼主懒，一开始没有这么写，选择了最简单粗暴的方式。
最后，感谢大家的回复，看到大家的回复受益良多，学到了很多。谢谢

内存

流式

数据库

23 replies • 2024-05-06 18:01:45 +08:00

cookii

Apr 17, 2024 via Android

改动量最小的方案，用 mapdb ，把 list 映射到磁盘。

512357301

Apr 17, 2024 via Android

对 Java 不熟，我的方案：
纯本地，sqlite 或 duckdb 或同类型方案
100 并发以内，clickhouse 或同类型 olap 方案
100 以上并发，出门左转找数据团队。

jiangboyueplus

Apr 17, 2024

@imzhoukunqiang 作为一个数据导入的需求，我就喜欢改动最小的方案。我去了解下

sagaxu

Apr 17, 2024

大 csv 不要用 easyExcel 读，用 commons csv ，CSVParser 可以迭代器访问，不用全部载入内存

边读边聚合，一次汇总完所有指标，同一个文件只读一次

分表是分布到多个机器利用集群性能，或者把冷热数据分离降低规模，此处不适用

perbugwei

Apr 17, 2024

9 千万条数据，那必然爆。
存到 mysql ，超过两千万也有问题。
不改程序，操作一下 csv ，把 csv 分割成多个 sheet 。

luozic

Apr 17, 2024

这明显是 duckdb 的场景，关键是 duckdb 用得多案例多，mapdb 维护都没看到什么了

cslive

Apr 17, 2024

shell 直接导入 csv 文件

Arivan996

Apr 17, 2024

最核心的问题不是所有的数据都在内存中没做处理吗？

Karte

Apr 17, 2024

核心问题是你要拿这些数据做什么?

Karte

Apr 17, 2024

有谁会把 9 千万条数据一起做聚合的? 分批次聚合都能解决问题.

BBCCBB

Apr 17, 2024

easyexcel 也是可以增量解析的, 你的问题在于要把所有数据都加到内存里.

winglight2016

Apr 17, 2024

lz 不说完整的需求，这个问题无解

如果是纯聚合计算，用 spark 吧

beetlerx

Apr 17, 2024

这不是 1BRC 很像么看看这个
https://www.cnblogs.com/thisiswhy/p/18051585

dooonabe

Apr 17, 2024

需求太模糊了

wxf666

Apr 17, 2024

@luozic #6 感觉 DuckDB 读文件时，性能有点问题？

感觉 DuckDB 读空缓冲区后，Writer 才能继续写。写满后，DuckDB 才去读一样？

同样的内容，会因喂给 DuckDB 的姿势不同，表现出不同的速度差异。。

就像 Python 的假多线程一样，只能有一个线程活跃。。