将数据加载到pyspark脚本中最有效的方法是什么?

mw3dktmi  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(181)

举个例子,假设这是我的代码。。。

sc, sqlContext = setupSparkContext(n_executors=2, n_cores=2, memory='10G')
sq = HiveContext(sc)
data = sq.sql(" SELECT * FROM database.table d WHERE d.gender = M)

我注意到这种方法往往会占用大量的缓存。有没有更好的方法来加载相同的数据?
我知道我的问题很一般,但我没有更具体的想法。我只是在想办法。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题