如何使我的烫伤作业在其输入桶上递归操作?

cczfrluj  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(366)

我有一个烫伤的工作,在电子病历上运行。它在包含多个文件的s3 bucket上运行。来源如下:

MultipleTextLineFiles("s3://path/to/input/").read
  /* ... some data processing ... */
  .write(Tsv("s3://paths/to/output/))

我想让它运行在一个嵌套的bucket上,也就是说,一个包含bucket的bucket本身就包含文件。它应该处理内部bucket中的所有文件。如果我尝试在不改变源代码的情况下执行此操作,则会出现以下错误:

java.io.IOException: Not a file: s3://path/to/innerbucket

如何更改此作业以使其在嵌套的bucket上运行?

0lvr5msh

0lvr5msh1#

使用通配符:

s3://path/to/input/*

如果有多个嵌套级别,请使用多个通配符来访问文件:

s3://path/to/input/*/*/*

相关问题