使用pyspark从配置单元导出大量数据

hm2xizp9  于 2021-06-24  发布在  Hive
关注(0)|答案(0)|浏览(194)

我是pyspark的新手,我想知道使用pyspark从hive导出大量数据的最佳实践是什么?
我有一个检索大量数据\结果的sql查询,我想将它们导出到另一台机器上进行进一步处理。
如何以最快的方式做到这一点?
我知道我可以使用“collect”,但由于这是一个巨大的数据量,我会用尽内存相当快。。。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题