举个例子,假设这是我的代码。。。
sc, sqlContext = setupSparkContext(n_executors=2, n_cores=2, memory='10G')
sq = HiveContext(sc)
data = sq.sql(" SELECT * FROM database.table d WHERE d.gender = M)
我注意到这种方法往往会占用大量的缓存。有没有更好的方法来加载相同的数据?
我知道我的问题很一般,但我没有更具体的想法。我只是在想办法。
举个例子,假设这是我的代码。。。
sc, sqlContext = setupSparkContext(n_executors=2, n_cores=2, memory='10G')
sq = HiveContext(sc)
data = sq.sql(" SELECT * FROM database.table d WHERE d.gender = M)
我注意到这种方法往往会占用大量的缓存。有没有更好的方法来加载相同的数据?
我知道我的问题很一般,但我没有更具体的想法。我只是在想办法。
暂无答案!
目前还没有任何答案,快来回答吧!