请教： hadoop 不会将大表格分割为 block

› Apache Hadoop

› Treasure Data

This topic created in 2439 days ago, the information mentioned may be changed or developed.

不是 dba，只是用户。

我之前使用的集群，在 sqoop 导入、create、insert 等操作，都会将大的表格分割为 100-200M 的小文件。但目前所用的 hadoop 集群上面操作时，永远是在原文件上 append，导致文件越来越大，hdfs dfs ls 查看到表格仅由单个文件组成，个别表格文件大小甚至可能超过数十 GB。

我个人也不知道是否因为这个原因导致速度非常差。

请问是否有配置需要修改？有没有可能对现有表格进行分割？

表格

文件

hadoop

分割

3 replies • 2019-09-27 11:09:20 +08:00