ooh
V2EX  ›  问与答

大文本合并去重有什么比较快的方法?

  •  
  •   ooh · Mar 9, 2014 · 3150 views
    This topic created in 4451 days ago, the information mentioned may be changed or developed.
    多个文本文件,单个上千万,数百万行,数十万,数万都有,考虑到数据合并后肯定有很多重复的,现在采用的是先sort>uniq>cat>sort>uniq
    想问的是有更快捷的方法吗?
    6 replies    1970-01-01 08:00:00 +08:00
    9hills
        1
    9hills  
       Mar 9, 2014
    上千万行去重用sort的效率很低,而且做了额外操作,因为你只是要去重,而不是排序

    用awk数组来实现很简单很快,而且内存占用相当于hash表

    cat 一堆文件 | awk '{ if (!seen[$0]++) { print $0; } }'
    9hills
        2
    9hills  
       Mar 9, 2014
    awk的这种方法的缺陷是内存占用,大约5000w条去重后的数据,计算过程估算占几个G

    但是肯定比sort占的少,上次有同事在机器上上千万行sort,把机器内存打爆了
    ooh
        3
    ooh  
    OP
       Mar 9, 2014
    @9hills thx,我试试,因为单行数据都是比较简单的数据,所以上千万行sort >> 还比较轻松
    alexapollo
        4
    alexapollo  
       Mar 9, 2014
    map(hash_insert, row)
    reduce(hash_insert, row)
    ooh
        5
    ooh  
    OP
       Mar 9, 2014
    @alexapollo 弱弱的问一下,这是怎么用的?
    9hills
        6
    9hills  
       Mar 9, 2014   ❤️ 1
    @ooh MapReduce , 如果你的数据量单机搞不定,就用map reduce吧
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   892 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 20:10 · PVG 04:10 · LAX 13:10 · JFK 16:10
    ♥ Do have faith in what you're doing.