我是pyspark的新手,我想知道使用pyspark从hive导出大量数据的最佳实践是什么?我有一个检索大量数据\结果的sql查询,我想将它们导出到另一台机器上进行进一步处理。如何以最快的方式做到这一点?我知道我可以使用“collect”,但由于这是一个巨大的数据量,我会用尽内存相当快。。。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!