Hadoop 读取 10 万个文件初始化过程很慢有方便的解决办法么？ - V2EX

Home Sign Up Sign In

› Apache Hadoop

› Hortonworks Sandbox

› Intel Hadoop Distribution

› Treasure Data

This topic created in 2135 days ago, the information mentioned may be changed or developed.

我是用 Flink 的 DataSet API 去读取文件，用的 Hadoop Compatability 里 Hadoop 的 FileInputFormat，发现在创建分片的 getSplits()方法里，会去遍历每一个文件获取 block locations，有 10 万个文件的话就得发 10 万次请求，所以任务初始化非常慢，请问一下有什么好的解决办法么？

4 replies • 2020-08-24 17:15:43 +08:00

1

F281M6Dh8DXpD1g2

Aug 21, 2020 via iPhone

合并小文件呗

2

billlee

Aug 21, 2020

HDFS 本来就不适合存小文件

3

ysn2233

OP

Aug 21, 2020

@billlee 文件也不小但是多，但是初始化慢就是一个循环对每个文件都要去发次 rpc 请求获取一个文件的 block 位置，如果能只发一次请求返回所有相关文件的位置信息感觉就快很多。

4

kex0916

Aug 24, 2020

把文件合并下，或者把读取文件过程拆分成多个任务跑，最后再 union 起来

About · Help · Advertise · Blog · API · FAQ · Solana · 2617 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 42ms · UTC 15:20 · PVG 23:20 · LAX 08:20 · JFK 11:20
♥ Do have faith in what you're doing.