从文件中为hadoop中的Map器创建自定义键值

jdzmm42g 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(295)

我有一个50mb大小的文件（没有空格的完整文本数据）。我想以这样一种方式对这些数据进行分区，即每个Map器都应该获得5mb的数据。Map程序应该以（k，v）格式获取数据，其中键-分区号（如1，2，…），值是纯文本（5mb）。
我读过 InputFormat (method getSplits) , FileInputFormat (FileSplit method) 以及 RecordReader 但无法理解如何生成和使用拆分为我的Map器创建所需的自定义（k，v）。我是新来的 Hadoop MapReduce 因此，请建议我如何继续在这种情况下。

Java hadoop mapreduce bigdata hadoop-partitioning

来源：https://stackoverflow.com/questions/35474409/creating-custom-key-value-for-mappers-in-hadoop-from-file