使用 Python 处理大文件有什么推荐的方式么？

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 3205 days ago, the information mentioned may be changed or developed.

大概五六个 G 的文件，目前分割成了数个小文件，使用 multiprocessing 这种处理了一下，但是效率还是太低了

请问哪位有什么推荐的方法？

另外，我在尝试使用 pp 这个库，不过总是提示变量未定义，实际上已经定义了，使用 multiprocessing 这种都不会提示这个错误，使用的代码如下：

cpu_num = 8
job_server = pp.Server(cpu_num)
a =  []
for f in xxxxx:
    a.append(job_server.submit(func_name, (f, )))
for x in a:
    tmp = x()

有这方面经验的朋友帮一下忙，感谢

Supplement 1 · Sep 23, 2017

目前处理速度大概是 5-6w 行每小时，总量大概 1kw 行左右…想达到的速度是一天内处理完

Supplement 2 · Sep 23, 2017

只读写试了一下还是挺正常的，所以推测应该是我处理过程耗时比较久。

我做的是解密处理…有对称加密也有 RSA 加密，不知道这种有什么提升的方式么……

Supplement 3 · Sep 23, 2017

查资料发现很多人问如何提升 Java RSA 解密的性能，有部分回复说数据量大了不适合用 RSA，性能较低，然后本身密钥长度也影响效率

考虑到 Python 当前性能提升几倍实际上还是不能满足要求，该考虑怎样用集群来解决了……

以上，再有遇到这个问题的朋友可以参考一下。

另，感谢各位的回复

Supplement 4 · Sep 29, 2017

不知道还有没有人看，最终采用了 mapreduce 都方式，用时大概 2 小时都样子。

即 map reduce 运行 python

job_server

cpu_num

文件

使用

46 replies • 2017-09-24 23:59:36 +08:00

linuxchild

Sep 23, 2017

话说为什么不能 append 了…

再说具体一些吧，就是把文件内容读出来做一些处理然后存到另外的文件去。

不知哪位处理过类似的需求

runjvm

Sep 23, 2017 via Android

之前的办法大概需要多久…

laxenade

Sep 23, 2017 via Android

pyspark 跑个本地 spark

clino

Sep 23, 2017 via Android

你觉得瓶颈在哪里，搞清这个最重要

tonghuashuai

Sep 23, 2017 via iPhone

现在的效率是什么样的，你想达到的预期是什么样呢？

这个量级的文件跑几个进程去处理不至于会太慢，再不济三楼说的上 spark 也能比较快的解决，只是不知道你要求的效率什么样的。

FindHao

Sep 23, 2017 via Android

别用 Python，，，我去年做个实验，处理 1g 的数据，由于写的 Python 比较渣，一天只处理了几 m，花了半个多小时，写了个 c 版本，十几分钟就跑完了。。

kokutou

Sep 23, 2017 via Android

Python 写了个导出一个游戏数据的文本，要 3 ～ 4 秒的样子，用 c 写了个，1 秒不到。。。

pathbox

Sep 23, 2017 via iPhone

我会尝试用 go

cdwyd

Sep 23, 2017 via Android

@FindHao
是你自己的锅的可能性远大于 Python

princelai

Sep 23, 2017 via Android

spark 或 dask 试试

linuxchild

Sep 23, 2017

@runjvm 大概不到 1kw 行的数据，现在的速度是 1h 处理 5-6w … 要求的速度是不到一天处理完

Wicked

Sep 23, 2017 via iPhone

@FindHao 才 1G，用 JS 都不需要 1 天啊…

linuxchild

Sep 23, 2017

@laxenade 刚刚试了试。。妈蛋服务器上 spark 环境有问题

sunchen

Sep 23, 2017

300 多万 html，压缩后 80G，python 多进程在 4c8t 处理器上大约跑了 2 个小时做 html 解析，因为都是小文件，机械磁盘 IO 瓶颈，后期放到 ssd 上好了很多。供参考

laqow

Sep 23, 2017 via Android

以前弄过一些组学的文件，如果是纯文本的话不要用 for..in..语句，用 readlines 读入几千行后再用 readline 处理，如果是 utf8 之类非等长的字节编码的话先按 byte 编码读入文本必要时再解析成别的，最后把文件塞到内存盘再加个多进程。如果要求不高用 bash+awk 比 python 快很多。

linuxchild

Sep 23, 2017

@tonghuashuai 感觉是读取后处理文件比较慢…所以尝试分成了小文件，然后发现速度也没快，囧

zerofiny

Sep 23, 2017 via Android

读取多行压缩放 redis 用多台机器消费之前处理 mysql 审计日志 30g 大概一个小时搞定 3 台 i5 机器

Wicked

Sep 23, 2017 via iPhone

楼主先确定瓶颈在哪里，用 C++重写也就只有 2 ～ 3 倍的提升而已。对于大文件，Windows 下可以用内存映射的方式，多线程分别映射不同区域同时处理。8 核跑满应该也能提升个 5 ～ 6 倍吧

linuxchild

Sep 23, 2017

@FindHao 目前用了一些 py 的库，再改 C 的话感觉时间来不及…捉急

linuxchild

Sep 23, 2017

@pathbox 唔，还不会写 go

@princelai 我去搜一下

@sunchen 这个速度很快了啊，多进程用的什么库呢

@laqow 纯文本。读取后处理的过程用到了 py 的库……所以目前想看看使用 py 有没有什么解决办法

@hasdream 公司服务器…我装个什么东西都得审批，周末是没什么希望了

@Wicked 对，感觉其他语言重写可能也达不到我要求对速度。不是 windows，跑在服务器上，后期还要搞成定时任务…所以要求肯定要一天内跑完

sunchen

Sep 23, 2017

@linuxchild multiprocessing 啊

Wicked

Sep 23, 2017 via iPhone

Linux 应该也有类似的机制，可以查下文档。还是建议 profile 先，先从算法本身优化，热点再用 C++写一下。如果你要干的事情确实就有这么多，那你唯一可以干的就是把 CPU 吃满，换 SSD，加机器

laqow

Sep 23, 2017 via Android

感觉 python 原生解析文本的几个函数效率很低，没压缩只有几个 G 的文件问题可能在这里，应该和多进程无关

FindHao

Sep 23, 2017 via Android

@cdwyd 很可能，哈哈。

gamexg

Sep 23, 2017

>>现在的速度是 1h 处理 5-6w
6w/60/60 = 16.66666666666667

1 秒不到 17 条？
不知道读出来做的什么处理，所以不确定是不是出问题的地方。
你先试试只读取+处理不写看看性能，怀疑每次写都强制 sync 了。

billion

Sep 23, 2017

我有处理 40G 文本文件的经验。

我的文本文件每一行都是一个 JSON，用 Python 读取出来，再把每一行的 JSON 转成字典并插入到 MongoDB 中。使用 Python 的 readline()一行一行读，凑够了 10000 个字典以后一次性插入 MongoDB，亲测单线程单进程 4 个小时不到就跑完了。

aru

Sep 23, 2017

@linuxchild
单线程处理一下，看一下读取 /处理 /写入分别的耗时是多少
找到瓶颈才好优化

scys

Sep 23, 2017

建议你重点在优化算法逻辑处理部分，py 读 /写文件不是关键点。
尝试下 pypy 看能不能改善。

linuxchild

Sep 23, 2017

@gamexg 经你这么一说，仿佛明白了一些，做的解密处理…应该是这个原因

去掉解密，只读写没什么问题，很快…

@laqow 解析倒是没啥问题，只是 split 一下；问题应该在处理对过程，我做的解密处理…

@sunchen 现在用了这个，效果不太好。试了一下 pp 想并行一下，结果出现了题目里对错误

@billion 这么一说更觉得是我处理过程导致的速度慢了，我做的解密处理……

linuxchild

Sep 23, 2017

@scys 嗯，主要是数据处理这里，我处理的是加解密，瓶颈应该是在这里… pypy 无力，在服务器上，装个软件都是运帷去搞

在想办法提高看看怎么并行处理一下

@aru 嗯，瓶颈应该是解密这里了…目前还没有找到好的办法

楼上说的 dask 还有我尝试的 pp 居然都碰到了错误…… pyspark 环境也有问题，想死

laxenade

Sep 23, 2017

假设一小时单线程能处理 6w 行，那四核(超线程在这里的用途应该不大)的服务器一天也只能跑 576w 行呢。所以你有可能需要换一个更快的库或者换一个语言(

scys

Sep 23, 2017

加解密你找个有 C 的模块，快起码不是一个数量级。

或者你说说你现在有的啥模块？

est

Sep 23, 2017

dask

mmap

linuxchild

Sep 23, 2017

@laxenade 服务器上跑的话，如果这样算，也只能尝试多几用几个核了……

@scys 用的 pycrypto …有什么推荐的模块么

@est 刚刚试了一下 dask

```
from dask import delayed
#import dask.bag as db
L = []
for fn in en_files:
# b = db.read_text(fn)
a = delayed(fun_name)(fn) # Delay execution of function
L.append(a)
result = delayed(L)
result.compute()
```
使用这种方式处理，发现和下面这种方式处理效率相似，看了看 cpu 占用率也很相似，大概都是单核 100%左右

```
#pool = ThreadPool(20)
#pool.map(decrypt_file, encrypt_files)
#pool.close()
#pool.join()
```

话说这是我使用方式的问题，还是什么？

laxenade

Sep 23, 2017

@linuxchild #34 所以差不多要 8 核 16 线程才能满足呢

linuxchild

Sep 23, 2017

@laxenade #35

- -。要是可以的话也想试试，先跑一下看看
用 pp 试了一下总是提示变量未定义

scys

Sep 23, 2017

https://pypi.python.org/pypi/cryptography

scys

Sep 23, 2017

https://github.com/Legrandin/pycryptodome

laqow

Sep 23, 2017 via Android

可能还是在 io，for fn in en_files 这个依赖系统硬盘缓存的，如果行数多但每行字少的时候很慢，主进程一次一行的分配任务会把主进程的 cpu 耗尽，不如一次 readlines 几千行塞到各个进程里在内存里由各个进程逐行处理。而且不知道为什么 python 解析 utf8 奇慢，全英文的转成其他编码的再处理。我以前遇到是这种问题。

numoone

Sep 23, 2017

难道都没看到楼主要处理的主要是加解密吗？瓶颈绝对值这啊！加解密模块用 C 来写吧！

likuku

Sep 23, 2017

找个能支持 CPU 硬件加解密加速器的库 /加解密库试试

jhdxr

Sep 23, 2017

最简单的答案是换 java/c/c++

有性能要求的 Python 永远不是第一选择

fiht

Sep 23, 2017

换 pypy 可解（应该

linuxchild

Sep 23, 2017

@laqow 问题应该是在加解密这里，读取存储试了一下如果没有加解密还是挺快的

@scys 感谢，回头试一下

@numoone 对，瓶颈是这里，很费资源，该考虑换一种方式了

@likuku 还能这样，我赶紧搜一下

@fiht 呜呜，服务器现在还是 py2.6 呢。。装 2.7 都得给运帷打申请

@jhdxr 那尝试一下 java 好了。。

afpro

Sep 24, 2017

这种玩意感觉上 Cython 或者 Pypy 效果会很不错

linuxchild

Sep 24, 2017

@afpro 效果应该会好一些，但是可能还是不太符合性能上的要求。

我用 pp 库把 CPU 跑满了，最后可以跑出来，但是消耗的时间依然很久，感觉用集群处理比较合适。

准备看看怎么搞一下