自定义二进制格式的自定义记录读取器

vom3gejh 于 2021-06-03 发布在 Hadoop

关注(0)|答案(0)|浏览(324)

在hadoopv2中，我需要创建一个 RecordReader 和/或 InputFormat 基于存储在hdfs中的一些大型二进制格式。这些文件基本上是具有以下结构的串联记录：

4-byte constant string "FOOO"
8-byte integer record length n1
n1-byte rest of the record
4-byte constant string "FOOO"
8-byte integer record length n2
n2-byte rest of the record
4-byte constant string "FOOO"
8-byte integer record length n3
n3-byte rest of the record
4-byte constant string "FOOO"
8-byte integer record length n4
n4-byte rest of the record
...

为了知道所有的边界点，我需要扫描整个文件。
有没有自定义读卡器/格式的例子来处理这样的结构？
我希望避免预先计算所有的分割点，我宁愿按Map程序的需要在每个记录中进行流式处理，这样我就不必浪费数据的循环。但是，即使我必须预先计算分割点，我也不知道如何编写自定义分割器，所以如果可能的话，我也希望能有一个指向这样的东西的指针。
需要注意的一点是：每条记录的“有效负载”本质上是任意二进制数据，并且可能包含 "FOOO" 据我所知，里面有4字节的常量。因此，如果输入拆分落在某个记录中间的某个位置，我就不必前进到下一个示例 "FOOO" 查找下一条记录，也不是管理记录查找的有效方法，因为这意味着扫描所有数据，而不仅仅是头并查找必要的位置。

Java hadoop binary-data recordreader

来源：https://stackoverflow.com/questions/20891285/custom-record-reader-for-custom-binary-format

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

自定义二进制格式的自定义记录读取器

暂无答案！

相关问题

热门标签

最新问答