如何在运行flink作业时设置hdfs文件的块大小?

bcs8qyzn  于 2023-05-05  发布在  HDFS
关注(0)|答案(1)|浏览(278)

我有一个自定义的文件类型,格式如下:首先是一个头,然后是一个大对象数组。对于每个文件,每个对象的长度是相同的,对象的计数记录在头中。
现在我想构建一个flink作业来并行处理这个文件。由于文件很大,我把它放在hdfs中。我认为可以根据物体来进行平行。
所以问题来了我应该如何设置文件块大小?也许是每个物体的长度?但是header呢?

iswrvxsc

iswrvxsc1#

如果你不支持文件的拆分枚举,那么HDFS块的大小并不重要,因为一个子任务将处理每个文件。
如果文件是可拆分的,并且可以确保每个对象都可以放入单个块中,并且可以确保对象边界等于块边界,那么这就是成功。

相关问题