我有一个烫手的工作,在一个特定的时间戳s3桶操作所有的文件。看起来是这样的: JsonLine("s3://path/to/timestampedbuckets/2016-02-03/", ('key1, 'key2)).read
我想改变作业,一次操作几个时间戳存储桶中的文件。例如,为了在2015年和2016年对所有文件进行操作,我想这样做: JsonLine("s3://path/to/timestampedbuckets/201[56]-*", ('key1, 'key2)).read
或者,更一般地说,这是:
def shouldProcess(path: String): Boolean = {...}
ChoosyJsonLine("s3://path/to/timestampedbuckets/", filepath => shouldProcess(filepath), ('key1, 'key2)).read
那么,对于一个非常重要的作业来说,是否有可能只选择性地处理inputs3 bucket中的一些文件呢?
暂无答案!
目前还没有任何答案,快来回答吧!