V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  vimiix  ›  全部回复第 8 页 / 共 8 页
回复总数  142
1  2  3  4  5  6  7  8  
2017-12-27 10:48:32 +08:00
回复了 prasanta 创建的主题 Python Toapi 正式发布 - 再也不愁没有数据!
mark
2017-12-17 00:57:25 +08:00
回复了 warcraft1236 创建的主题 Python 如果有 33W 行文字,去重应该怎么写呢?
我的话,可能会先考虑用集合 set,下面是伪代码思路:
values = set()
vals_len = 0

dest_file = open('dest_file', 'w')
with open txt:
for line in readlines():
val = hash(line)
vals_len = len(values)
values.add(val) #主要在这一步借助 set 的不重复特性,判断集合长度是否增长
if len(values) == vals_len+1:
dest_file.write(line)
dest.file.close()

仅供参考,没试验过。
1  2  3  4  5  6  7  8  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1588 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 16:51 · PVG 00:51 · LAX 09:51 · JFK 12:51
Developed with CodeLauncher
♥ Do have faith in what you're doing.