V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
txc106
V2EX  ›  Hadoop

爬虫每天传一次到 hdfs 能用 flume 吗?

  •  
  •   txc106 · Apr 5, 2021 · 3350 views
    This topic created in 1860 days ago, the information mentioned may be changed or developed.

    爬虫每天传一次到 hdfs 能用 flume 吗?已经配好了 flume 为了论文多点内容也想尽量用上 但发现 flume 好像设滚动的话会一直产生新文件 设滚动时间长在时间到之前好像又是一直是 tmp 状态 有办法可以使 csv 文件每天通过 flume 传一次到 hdfs 吗?还是只能设置定时任务到时间 put 一次呢?感谢解答

    3 replies    2021-04-06 10:35:29 +08:00
    xcc880
        1
    xcc880  
       Apr 5, 2021   ❤️ 1
    尝试下 HDFS Sink 参数 hdfs.idleTimeout, 即文件多少时间内没更新就会 close.
    chennuo
        2
    chennuo  
       Apr 6, 2021
    面向 JY coding 么
    wpf375516041
        3
    wpf375516041  
       Apr 6, 2021
    所以你论文里面怎么写,跟 flume 能不能有什么关系,你说改了源码不是更好
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4634 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 10:05 · PVG 18:05 · LAX 03:05 · JFK 06:05
    ♥ Do have faith in what you're doing.