V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
artandlol
V2EX  ›  Linux

发现处理十万条以上数据的时候 sed、awk 命令就 bug 了

  •  
  •   artandlol · 2017-03-13 13:03:23 +08:00 · 3941 次点击
    这是一个创建于 2811 天前的主题,其中的信息可能已经有所发展或是发生改变。

    十万条以上就开始只能处理一部分而已

    16 条回复    2017-03-14 09:31:35 +08:00
    mdzz
        1
    mdzz  
       2017-03-13 13:24:26 +08:00
    看到 grep - md5.sum 的时候楞了几秒钟
    Martin9
        2
    Martin9  
       2017-03-13 14:33:02 +08:00
    @mdzz 我也
    ElmerZhang
        3
    ElmerZhang  
       2017-03-13 14:51:18 +08:00
    你确定不是你的 md5.sum 一直有 append ?
    yiyiwa
        4
    yiyiwa  
       2017-03-13 14:56:18 +08:00
    10 万条不至于吧!
    congeec
        5
    congeec  
       2017-03-13 15:10:43 +08:00 via iPhone
    这种情况下不用 cut 么?
    rrfeng
        6
    rrfeng  
       2017-03-13 15:21:56 +08:00
    从未遇到过
    noark9
        7
    noark9  
       2017-03-13 15:35:54 +08:00
    从未遇到过,你确定你的数据只是按行还是有增加,或者数据没问题,之前导数据的时候三五百万是松松的处理啊
    lrz0lrz
        8
    lrz0lrz  
       2017-03-13 16:20:51 +08:00
    处理几千万行数据从没遇到过这个问题
    est
        9
    est  
       2017-03-13 16:49:12 +08:00
    在 hdfs /hadoop stream 上跑 grep 的路过。都不是事儿~~
    airqj
        10
    airqj  
       2017-03-13 16:56:37 +08:00
    @mdzz
    @Martin9
    以为这是 grep 某种自己未知用法 :(
    rogerchen
        11
    rogerchen  
       2017-03-13 18:54:43 +08:00
    楼主总想搞个大新闻, FSF 这些远古套件出问题的可能性几乎没有,你也不想想用户群有多大。。。
    lhbc
        12
    lhbc  
       2017-03-13 19:00:01 +08:00 via iPhone
    十万也算量?
    fxxkgw
        13
    fxxkgw  
       2017-03-13 19:00:09 +08:00
    C 的效率对付几十万条数据还是妥妥的
    chineselittleboy
        14
    chineselittleboy  
       2017-03-13 19:03:48 +08:00
    下午刚处理过三百万行的文本,几十秒
    halfbloodrock
        15
    halfbloodrock  
       2017-03-14 08:48:33 +08:00
    想用 shell 处理大量文本数据的话,用 while 结合 awk , sed 。
    feiyang21687
        16
    feiyang21687  
       2017-03-14 09:31:35 +08:00
    md5.sum......
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2735 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 621ms · UTC 12:36 · PVG 20:36 · LAX 04:36 · JFK 07:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.