从文件中为hadoop中的Map器创建自定义键值

jdzmm42g  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(295)

我有一个50mb大小的文件(没有空格的完整文本数据)。我想以这样一种方式对这些数据进行分区,即每个Map器都应该获得5mb的数据。Map程序应该以(k,v)格式获取数据,其中键-分区号(如1,2,…),值是纯文本(5mb)。
我读过 InputFormat (method getSplits) , FileInputFormat (FileSplit method) 以及 RecordReader 但无法理解如何生成和使用拆分为我的Map器创建所需的自定义(k,v)。我是新来的 Hadoop MapReduce 因此,请建议我如何继续在这种情况下。

mlnl4t2r

mlnl4t2r1#

你可以设置 mapreduce.input.fileinputformat.split.maxsize 在您的配置中,以字节为单位告诉Map程序您应该获得5mb的数据。

相关问题