我有一个50mb大小的文件(没有空格的完整文本数据)。我想以这样一种方式对这些数据进行分区,即每个Map器都应该获得5mb的数据。Map程序应该以(k,v)格式获取数据,其中键-分区号(如1,2,…),值是纯文本(5mb)。
我读过 InputFormat (method getSplits)
, FileInputFormat (FileSplit method)
以及 RecordReader
但无法理解如何生成和使用拆分为我的Map器创建所需的自定义(k,v)。我是新来的 Hadoop MapReduce
因此,请建议我如何继续在这种情况下。
1条答案
按热度按时间mlnl4t2r1#
你可以设置
mapreduce.input.fileinputformat.split.maxsize
在您的配置中,以字节为单位告诉Map程序您应该获得5mb的数据。