使用pyspark执行python请求并存储结果二进制文件的最有效方法?

aamkag61  于 2021-05-16  发布在  Spark
关注(0)|答案(0)|浏览(257)

我正在使用数据集中的列来创建python请求所需的url。python请求在pyspark udf中执行。而产生的二进制响应将存储为parquet。一切正常,直到我达到将Dataframe作为Parquet写入s3的步骤,它就会卡住。
这是执行此任务的最佳方式吗?
谢谢!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题