pyspark读取一个s3 bucket中的多个文件夹并应用filter,然后重写回相应的文件夹

92vpleto  于 2021-05-16  发布在  Spark
关注(0)|答案(0)|浏览(337)

我有s3表数据,每个表包含多个filehour文件夹。我想读取整个bucket并应用过滤器,然后再次将数据重写回相应的文件夹。
例如:表a-->filehour1,filehour2,filehour3..etc文件:{id,name,address}读取表a下的每个文件夹,然后应用筛选器条件{remove id=1},然后重新写入/更新相同的文件夹。
例如:id=1记录present filehour1,filhour2所以,需要过滤那些文件夹中的数据,然后在同一个文件夹中更新它。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题