我有一个烫伤的工作,在电子病历上运行。它在包含多个文件的s3 bucket上运行。来源如下:
MultipleTextLineFiles("s3://path/to/input/").read
/* ... some data processing ... */
.write(Tsv("s3://paths/to/output/))
我想让它运行在一个嵌套的bucket上,也就是说,一个包含bucket的bucket本身就包含文件。它应该处理内部bucket中的所有文件。如果我尝试在不改变源代码的情况下执行此操作,则会出现以下错误:
java.io.IOException: Not a file: s3://path/to/innerbucket
如何更改此作业以使其在嵌套的bucket上运行?
1条答案
按热度按时间0lvr5msh1#
使用通配符:
如果有多个嵌套级别,请使用多个通配符来访问文件: