dataset—如何在ApacheFlink中将多个序列文件作为批处理作业并行读取

aij0ehis  于 2021-06-24  发布在  Flink
关注(0)|答案(0)|浏览(207)

我有一个在flink数据集中作为批处理作业读取序列文件的用例。文件存储在s3 bucket中,我必须在flink数据集中使用它。我无法通过在数据集中提供逗号(,)分隔的文件路径来读取文件。我无法使用循环读取文件中的数据,因为桶中有很多文件。还有 union flink数据集的函数在几次迭代之后似乎失败了。有人能帮我创建一个自定义的序列文件读取器,这将在spark中提供的这种情况下工作。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题