我有一个在flink数据集中作为批处理作业读取序列文件的用例。文件存储在s3 bucket中,我必须在flink数据集中使用它。我无法通过在数据集中提供逗号(,)分隔的文件路径来读取文件。我无法使用循环读取文件中的数据,因为桶中有很多文件。还有 union
flink数据集的函数在几次迭代之后似乎失败了。有人能帮我创建一个自定义的序列文件读取器,这将在spark中提供的这种情况下工作。
我有一个在flink数据集中作为批处理作业读取序列文件的用例。文件存储在s3 bucket中,我必须在flink数据集中使用它。我无法通过在数据集中提供逗号(,)分隔的文件路径来读取文件。我无法使用循环读取文件中的数据,因为桶中有很多文件。还有 union
flink数据集的函数在几次迭代之后似乎失败了。有人能帮我创建一个自定义的序列文件读取器,这将在spark中提供的这种情况下工作。
暂无答案!
目前还没有任何答案,快来回答吧!