pyspark读取一个s3 bucket中的多个文件夹并应用filter，然后重写回相应的文件夹

92vpleto 于 2021-05-16 发布在 Spark

关注(0)|答案(0)|浏览(353)

我有s3表数据，每个表包含多个filehour文件夹。我想读取整个bucket并应用过滤器，然后再次将数据重写回相应的文件夹。
例如：表a-->filehour1，filehour2，filehour3..etc文件：{id，name，address}读取表a下的每个文件夹，然后应用筛选器条件{remove id=1}，然后重新写入/更新相同的文件夹。
例如：id=1记录present filehour1，filhour2所以，需要过滤那些文件夹中的数据，然后在同一个文件夹中更新它。

来源：https://stackoverflow.com/questions/65030115/pyspark-read-multiple-folders-in-a-s3-bucket-and-apply-filter-and-then-rewrite-i

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

pyspark读取一个s3 bucket中的多个文件夹并应用filter，然后重写回相应的文件夹

暂无答案！

相关问题

热门标签

最新问答