Python list 数组 4 千万个元素去重、处理

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 2485 days ago, the information mentioned may be changed or developed.

如题
主要问题：千万级别处理起来会不会崩溃？

主要是去重

谢谢

Python

List

处理

崩溃

42 replies

jdhao

Jul 15, 2019 via Android

自己做一个然后试一下不就知道了

yedanten

Jul 15, 2019 via Android

得看业务情况啊，不知道你后续的处理是要做哪些操作，否则只是去重，最简单粗暴的转换为 set 就完事了

momo1999

Jul 15, 2019

推荐用 64 位 Python，加内存就是了。

lithiumii

Jul 15, 2019

list(set(li)
崩溃了就是你电脑不行！（滑稽

Takamine

Jul 15, 2019

既然都能打算一次性把 4000 个元素放到一个 list 里面操作，不如就直接再导入 Excel 去重:doge:。

chengxiao

Jul 15, 2019

这种建议直接上 MongoDB 然后设置索引唯一去重

nutting

Jul 15, 2019

内存里的操作怕啥，比数据库强多了，随便搞

ipwx

Jul 15, 2019

In [4]: N = 10**8

In [5]: arr = np.random.randint(0, N, size=N)

In [6]: len(arr)
Out[6]: 100000000

In [7]: %timeit set(arr)
36 s ± 122 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

给你一个时间作参考。。。

ytmsdy

Jul 15, 2019

先分段排序，然后去重。

v2mo

Jul 15, 2019

几千万的数据，一台电脑运行，有可行性吗？

wtks1

Jul 15, 2019 via Android

@Takamine excel 处理不了百万以上的行数吧

Universe

Jul 15, 2019 via Android

看精度要求，不高的话布隆过滤器可以一试

pcdRob

Jul 15, 2019

几千万而已洒洒水啦

fuxiuyin

Jul 15, 2019

首先，这 4 千万个元素肯定是要便利一遍的，除非你的数据有什么特殊的规律。
其次，要看这 4 千万存在哪，内存？文件？网络？
最后，如果没有优化空间不可避免的要对 4 千万数据过一遍那就看想优化内存还是想优化时间了，不过最快可能也就是楼上 8 楼给的。

mengzhuo

Jul 15, 2019

4 千万 uint32，最大也就 40M 搞定了…… O （ N ）操作而已

dji38838c

Jul 15, 2019

这样都不肯用 pandas 吗?

ruandao

Jul 15, 2019

布隆过滤器

ruandao

Jul 15, 2019

想了想，好像不需要

千万，也就 MB 级别吧

janxin

Jul 15, 2019

数据都不说一下怎么分情况处理。

这种统一建议 list(set(data))

Takamine

Jul 15, 2019

@wtks1 你也说了是行数，要是每个元素都写进去单个 cell 里面不就够啦。:doge:

misaka19000

Jul 15, 2019

不是，你也说一下你每条数据多大啊，每条数据 1kb 和每条数据 10mb 当然不一样

vincenttone

Jul 15, 2019

既然 4 千万个元素能放进数组里，说明你内存就够用，去重就是了，就看算法对内存的使用和耗费的 cpu 时间了。

flyingghost

Jul 15, 2019

4kw 个 int，160M，可以直接放内存。
设计一个分布尽可能均匀的散列函数（这一步不太确定我不是搞数学的。瞎拍一个 md5(obj)//4kw 的算法不知道效果怎么样？）
遍历每个 obj 求 hash，把 obj 的 index 放在对应的桶里。
如果桶里已有元素（ hash 冲突），单独放在另一个冲突列表里。
对于冲突列表里的每个冲突 hash，遍历并精确对比每个 obj，从源数据集删除完全相同的 obj。

稍微注意一下 getObj(index)的 O(1)复杂度，理论上可以应对任意量的数据了。