python 通过 client.read()读取 hdfs 上的文件的速度特别慢,而将 hdfs 文件下载到本地,读取特别快,为什么?如果提高直接在 hdfs 上读取文件的效率?
python 通过 client.read()读取 hdfs 上的文件的速度特别慢,而将 hdfs 文件下载到本地,读取特别快,为什么?如果提高直接在 hdfs 上读取文件的效率?
1
wlsnx Feb 26, 2019
“而将 hdfs 文件下载到本地,读取特别快”怎么理解?
|
3
ifaii Feb 26, 2019 via iPhone
小文件多就只能上块存储 block,文件类型存储注定快不起来
|
4
VYSE Feb 26, 2019
用过 pyjnius 直接调 jar 去从 hdfs 拖 data, 不过当时原因是没有兼容库
|