hdfs并行读取大文件

gupuwyp2  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(635)

我想从5个节点的hadoop集群中读取一个500gb大小的大文件。我能并行地读这些块吗,还是必须一个一个地读?

o75abkj4

o75abkj41#

如果您使用的是mapreduce/hive/pig,那么将根据块的数量自动并行读取块。
假设,如果您正在500gb文件上执行字数计算,并且块大小为128mb,那么将有4个块,因此mapreduce将启动4个Map器(最好尽可能接近数据-数据位置)来并行执行字数计算。

相关问题