V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
RangerWolf
V2EX  ›  问与答

有没有不需要遍历整个文件就能将文件前 n 行删除的方法?

  •  
  •   RangerWolf · 2014-09-27 22:01:15 +08:00 · 2833 次点击
    这是一个创建于 3710 天前的主题,其中的信息可能已经有所发展或是发生改变。
    想分析一个10G的文件,奈何开头的几行是说明。虽然目前的程序也能跑下去,但是总是感觉不好,因为每次都得进行判断 if( line.startswith("XXX"))

    不知道大家有什么办法吗~
    15 条回复    2014-09-28 14:57:06 +08:00
    laputaprince
        1
    laputaprince  
       2014-09-27 22:08:01 +08:00   ❤️ 2
    sed -i -e 1,3d file

    1-3 行被删除, in-place 删除。

    楼主记得报告一下性能如何。
    cbsw
        2
    cbsw  
       2014-09-27 22:15:23 +08:00   ❤️ 1
    sed 和 awk 就是专门干这种事的,逐行分析日志文件,而不用一次加载整个文件
    RangerWolf
        3
    RangerWolf  
    OP
       2014-09-27 22:17:27 +08:00
    @laputaprince
    @cbsw 从没用过这两个东西~ 我还需要自行脑补一下。 多谢指教!
    xcv58
        4
    xcv58  
       2014-09-27 22:25:29 +08:00 via Smartisan T1   ❤️ 1
    head tail grep awk sed 都可以,看具体需求了。
    xcv58
        5
    xcv58  
       2014-09-27 22:40:15 +08:00
    刚才搜索了一下,在不改动文件系统的前提下,没有小于 O(n) 的方法。
    SoloCompany
        6
    SoloCompany  
       2014-09-27 23:13:22 +08:00
    既然程序能够识别注释(跳过前几行注释的运行复杂度是 o(0)
    你又何苦费尽心思删掉这几行内容?
    ffffwh
        7
    ffffwh  
       2014-09-27 23:47:35 +08:00
    @xcv58
    假设需求是删除前几行,然后保存。
    我的疑问是:删完了以后是不是要重新写一遍整个文件?
    rrfeng
        8
    rrfeng  
       2014-09-28 00:01:35 +08:00
    @ffffwh
    显然不是,改动第一个 block 的 inode 就可以了。
    rrfeng
        9
    rrfeng  
       2014-09-28 00:10:31 +08:00   ❤️ 1
    另外如果你这几行是固定内容的话,最快的就是 seek 到需要的行了。没有更快的办法……

    不过相对于 10G 来说,前几十行真心可以忽略了吧
    msg7086
        10
    msg7086  
       2014-09-28 05:46:52 +08:00 via iPhone
    不如合理拆开文件,变成几十个小文件呢…
    RangerWolf
        11
    RangerWolf  
    OP
       2014-09-28 09:04:33 +08:00
    @rrfeng 多谢提醒,我看了Java / C# 里面都有提供seek函数。
    @xcv58 head tail 应该不能直接删除源文件之中的行吧?
    @msg7086 分成小文件也行,只是还是得将源文件处理一遍。 强迫症吧~ 看着不爽 哈哈
    ryd994
        12
    ryd994  
       2014-09-28 11:33:00 +08:00
    你先读几行看看是不是,如果是,就立刻处理,然后进循环
    ryd994
        13
    ryd994  
       2014-09-28 11:40:22 +08:00
    @laputaprince
    @cbsw
    @xcv58
    @ffffwh
    为什么非要修改源文件?
    把处理的第一次展开出来不就好了?前几行先扔掉,如果发现是数据,就直接调用一次处理逻辑,然后再进循环。
    xcv58
        14
    xcv58  
       2014-09-28 14:56:20 +08:00 via Smartisan T1
    @RangerWolf head tail 只能显示,不会改动内容。你这种情况我一般用 awk 来处理。
    xcv58
        15
    xcv58  
       2014-09-28 14:57:06 +08:00 via Smartisan T1
    @rrfeng 请教如何改动 inode
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1735 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 16:40 · PVG 00:40 · LAX 08:40 · JFK 11:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.