将数据加载到pyspark脚本中最有效的方法是什么？

mw3dktmi 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(181)

举个例子，假设这是我的代码。。。

sc, sqlContext = setupSparkContext(n_executors=2, n_cores=2, memory='10G')
sq = HiveContext(sc)
data = sq.sql(" SELECT * FROM database.table d WHERE d.gender = M)

我注意到这种方法往往会占用大量的缓存。有没有更好的方法来加载相同的数据？
我知道我的问题很一般，但我没有更具体的想法。我只是在想办法。

hadoop apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/46834871/whats-the-most-efficient-way-to-load-data-into-a-pyspark-script

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

将数据加载到pyspark脚本中最有效的方法是什么？

暂无答案！

相关问题

热门标签

最新问答