V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ooh
V2EX  ›  问与答

大文本合并去重有什么比较快的方法?

  •  
  •   ooh · 2014-03-09 15:47:09 +08:00 · 2787 次点击
    这是一个创建于 3916 天前的主题,其中的信息可能已经有所发展或是发生改变。
    多个文本文件,单个上千万,数百万行,数十万,数万都有,考虑到数据合并后肯定有很多重复的,现在采用的是先sort>uniq>cat>sort>uniq
    想问的是有更快捷的方法吗?
    6 条回复    1970-01-01 08:00:00 +08:00
    9hills
        1
    9hills  
       2014-03-09 16:02:02 +08:00
    上千万行去重用sort的效率很低,而且做了额外操作,因为你只是要去重,而不是排序

    用awk数组来实现很简单很快,而且内存占用相当于hash表

    cat 一堆文件 | awk '{ if (!seen[$0]++) { print $0; } }'
    9hills
        2
    9hills  
       2014-03-09 16:07:28 +08:00
    awk的这种方法的缺陷是内存占用,大约5000w条去重后的数据,计算过程估算占几个G

    但是肯定比sort占的少,上次有同事在机器上上千万行sort,把机器内存打爆了
    ooh
        3
    ooh  
    OP
       2014-03-09 16:11:44 +08:00
    @9hills thx,我试试,因为单行数据都是比较简单的数据,所以上千万行sort >> 还比较轻松
    alexapollo
        4
    alexapollo  
       2014-03-09 16:50:52 +08:00
    map(hash_insert, row)
    reduce(hash_insert, row)
    ooh
        5
    ooh  
    OP
       2014-03-09 18:02:28 +08:00
    @alexapollo 弱弱的问一下,这是怎么用的?
    9hills
        6
    9hills  
       2014-03-09 18:04:45 +08:00   ❤️ 1
    @ooh MapReduce , 如果你的数据量单机搞不定,就用map reduce吧
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3400 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 11:50 · PVG 19:50 · LAX 03:50 · JFK 06:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.