hiouyuu
V2EX  ›  Hadoop

请教: hadoop 不会将大表格分割为 block

  •  
  •   hiouyuu · Sep 27, 2019 · 4461 views
    This topic created in 2418 days ago, the information mentioned may be changed or developed.
    不是 dba,只是用户。

    我之前使用的集群,在 sqoop 导入、create、insert 等操作,都会将大的表格分割为 100-200M 的小文件。但目前所用的 hadoop 集群上面操作时,永远是在原文件上 append,导致文件越来越大,hdfs dfs ls 查看到表格仅由单个文件组成,个别表格文件大小甚至可能超过数十 GB。

    我个人也不知道是否因为这个原因导致速度非常差。

    请问是否有配置需要修改?有没有可能对现有表格进行分割?
    3 replies    2019-09-27 11:09:20 +08:00
    suixn
        1
    suixn  
       Sep 27, 2019   ❤️ 1
    dfs.block.size 设置的多大?
    id4alex
        2
    id4alex  
       Sep 27, 2019   ❤️ 1
    你在 hdfs 上看到一个文件, 底层是多个 block 分布在不同节点.
    hiouyuu
        3
    hiouyuu  
    OP
       Sep 27, 2019
    谢谢两位,发现文件的确是分割为 blocks 了。

    这样看起来速度慢仍然是需要靠分区来搞定,我回头和 DBA 那边说说吧。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1169 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 18:10 · PVG 02:10 · LAX 11:10 · JFK 14:10
    ♥ Do have faith in what you're doing.