不是 dba,只是用户。
我之前使用的集群,在 sqoop 导入、create、insert 等操作,都会将大的表格分割为 100-200M 的小文件。但目前所用的 hadoop 集群上面操作时,永远是在原文件上 append,导致文件越来越大,hdfs dfs ls 查看到表格仅由单个文件组成,个别表格文件大小甚至可能超过数十 GB。
我个人也不知道是否因为这个原因导致速度非常差。
请问是否有配置需要修改?有没有可能对现有表格进行分割?
我之前使用的集群,在 sqoop 导入、create、insert 等操作,都会将大的表格分割为 100-200M 的小文件。但目前所用的 hadoop 集群上面操作时,永远是在原文件上 append,导致文件越来越大,hdfs dfs ls 查看到表格仅由单个文件组成,个别表格文件大小甚至可能超过数十 GB。
我个人也不知道是否因为这个原因导致速度非常差。
请问是否有配置需要修改?有没有可能对现有表格进行分割?