请问有 1000W+行的数据(excel 表格)，如何合并处理？

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 907 days ago, the information mentioned may be changed or developed.

请教下 V 友，我请 IT 后台帮忙拉出大概 1300W 行左右的数据，分了 20 几个 excel 表给给我，1 个文件约 60-70W 行。需求是想从这些数据里面提取需要是数据，然后做一些透视汇总什么的。

之前想的处理逻辑是：(1)先 pandas 合并所有表格(2)数据处理后导出。

碰到的问题是：pandas 处理不了这么大量是数据，多个文件合并卡死了。经过网上搜索一翻，装了 modin ，目前试验下来 3,4 个文件一合并不会报错，但是再多了也不行。

想请问 V 友还有没有更合适的工具？最好也是支持 pandas 语法的。

——————

P.S.我没有连后台数据库的权限（给了也不会，不懂数据库），也不方便请 IT 做预处理再导给我。是不是只能考虑单个文件处理，然后再逐一合并结果了？但是有一些处理逻辑是需要几张汇总起来后才能写判断的。

pandas

处理

合并

文件

35 replies • 2024-04-30 21:59:16 +08:00

F281M6Dh8DXpD1g2

Jan 19, 2024

自己整到 sqlite 里面写 sql 完事

chengran630

Jan 19, 2024

自己本机装个 mysql ，建表，然后 Navicat 导入 excel ，再从 mysql 中提取数据
你的需求不是 excel 能搞定的

h157

Jan 19, 2024

这数据量，用 vba 多表汇总试试

LuJason

Jan 19, 2024

直接 pandas.concat 合并不行吗，百万级别的数据我都合并过，当然我是在服务器上合并的

vvhy

Jan 19, 2024

excel 表格最多 1048576 行

Moeblack

Jan 19, 2024

我最近弄了一个 1000w 行的数据(Gelbooru metainfo ） csv 文件，用 sqlite 弄的

suibianwanwan

Jan 19, 2024

如果你电脑配置不错, 1300w 行, 一个 excel 就可以导出来了, 分 13 个 sheet, 每个 sheet100w 行
就是打开有点费劲, 毕竟文件太大了

noahliaszn

Jan 19, 2024

polars

Worldispow

Jan 19, 2024

合并不了，excel 最大行是 1048576 ，即便显示合并成功，excel 也会显示不全。
我一般是直接导出 csv 文件，然后再放到 oracle 里面分析。
需要做图啥的话用 Tableau 、帆软之类的 bi 软件。

Worldispow

Jan 19, 2024

如果你想用 pandas 分析，可以让运维导出 csv 格式，csv 没问题。

Horance

Jan 19, 2024

可以看下这个 https://mp.weixin.qq.com/s/BARSLv1Ua4hxdsZRntCnQg ，我曾经合并过几百万个 csv 文件差不多 1 0000 0000 条数据也可以在 1 个小时内完成，当然和列数有关，具体看你数据复杂度。

Lynnnn

Jan 19, 2024

感谢各位 V 友回复，我可能没表达清楚。
目前 1000W 数据是已经导出成 excel 表格，分了 20 多个文件，每个文件 1 个 sheet 。这些就是我的数据源了。后面所有处理都是基于这个。

然后最后我需要的结果，处理完完成导出的文件是非常小的，就 1 个 excel 的行数就能容纳，并不是导出结果也是 1000W 的行数据，这里补充说明一下。

我目前的问题是：处理过程中，合并 1000W 行数据报错，本地电脑发现上了 modin 也不行。

所以思路是调整工具？变更代码处理逻辑？

cvbnt

Jan 19, 2024 via Android

chatgpt 问一下？

TimePPT

Jan 19, 2024

如果只涉及统计 excel 行数，这事就简单了。

不上代码了，直接说思路，python+pandas 方便很多

待处理 excel 放一个文件夹

使用 pandas 创建一个 dataframe ，列名：excel 文件名，行数，（有必要的话可以列数，甚至可以列名拿出来）

标准库 pathlib 拿到所有 xls/xlsx 文件 path
循环遍历这些 path
with Path.open as f 读取文件
读取 excel 内容到 pandas 的 dataframe
获取文件名，行数，并记录到开头新建的 dataframe 里

循环遍历完后，df.to_excel 导出统计文件

Betsy

Jan 19, 2024 via iPhone

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_sql.html

基于上述的代码将 Excel 导入到 SQLite ，然后按照你熟悉的方式操作 DataFrame 。

SQLite 就在本地，也不需要什么数据库权限和 it 小伙伴支援。

a1b2c3T

Jan 19, 2024 via iPhone

用 emeditor 试试，

SkyEcho

Jan 19, 2024 via iPhone

不需要 pandas 库合并成一个 excel

直接几千万行数据全读取到内存里，然后直接用 Python 完成你要的数据分析就行了

beyondstars

Jan 19, 2024

1. 把每个小表格文件自己转成 csv 格式，或者让运维给你 csv 格式的，文件名编好顺序，例如 1.csv, 2.csv, ..., N.csv ；
2. 把每个文件的第一行去掉，但是要留一份出来单独保存，例如 head.csv;
3. 确保每个 csv 文件的最后一个字符一定是有且仅有一个换行符，然后按顺序合并下列文件 head.csv, 1.csv, ..., N.csv;

CaptainD

Jan 19, 2024

pandas 理论上几千万数据没问题的，除非你的机器性能不太行或者你得 excel 列太多或者你代码有问题，可以把代码或者数据实例发上来看看，我经常用 pandas 做数分，几千万数据，十几列或者更多，都没问题，32g 内存足以

noparking188

Jan 19, 2024

试试直接 PySpark 单机跑，API 接口和 pandas 差不多，记得用 3.3 及以上版本的，可以直接读批量 Excel

sunmker

Jan 19, 2024

让 it 导出 csv 的数据，1300w 行，再用 pandas 导入处理

Battle

Jan 19, 2024

grep sed awk

ohayoo

Jan 19, 2024

pandas 处理应该是没问题的，我曾经甚至用 pandas 处理过 nginx 日志分析，日志以亿条为单位都没问题，用 chunksize ，分段读取，避免内存吃不消

deweixu

Jan 19, 2024

导出 csv ，cat awk sed grep ，，，哈哈哈哈哈

ntedshen

Jan 19, 2024

xlsx 这玩意感觉三方读取普遍有问题，数值还行主要是那个 sharedStrings.xml 的字典，之前用 java 导出一份两百多万行的用户数据的时候用了 70g 内存。。。
要么转 csv 或者 json 处理要么给个巨大内存的机器让他自己龟爬。。。

djangovcps

Jan 19, 2024

报什么错？ OOM 内存溢出？自己写分块处理逻辑吧，不行就存 mysql 里；

iv8d

Jan 19, 2024

导入数据库，处理完了再导出为 excel

ktyang

Jan 19, 2024

换个格式。。。

Lynnnn

Jan 19, 2024

谢谢各位回复，源数据我先转成 csv ，准备先试试下面 3 种方案：
(1)导入数据库 mysql/sqlite
(2)换 polars
(3)换 PySpark
(4)控制内存

合并成 1 个文件只在 python 数据处理过程中，会要在 jupyter 里面预览一下效果，不导出。等全部处理完导出的只是一个比较小的文件。

应该是上面几楼说的内存的问题，普通办公人员电脑配置不太行，但用 PowerBI 更卡...
不过数据库和内存控制都没搞过，我先研究一下再反馈。

再次谢谢！