我想从5个节点的hadoop集群中读取一个500gb大小的大文件。我能并行地读这些块吗,还是必须一个一个地读?
o75abkj41#
如果您使用的是mapreduce/hive/pig,那么将根据块的数量自动并行读取块。假设,如果您正在500gb文件上执行字数计算,并且块大小为128mb,那么将有4个块,因此mapreduce将启动4个Map器(最好尽可能接近数据-数据位置)来并行执行字数计算。
1条答案
按热度按时间o75abkj41#
如果您使用的是mapreduce/hive/pig,那么将根据块的数量自动并行读取块。
假设,如果您正在500gb文件上执行字数计算,并且块大小为128mb,那么将有4个块,因此mapreduce将启动4个Map器(最好尽可能接近数据-数据位置)来并行执行字数计算。