如何设置apachespark在本地模式下当数据不适合ram时使用本地硬盘?

368yc8dk  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(303)

我有50 gb的数据集,这不适合在8 gb的ram我的工作电脑,但它有1 tb的本地硬盘。
官方文档中的以下链接提到,如果数据不适合内存,spark可以使用本地硬盘。
http://spark.apache.org/docs/latest/hardware-provisioning.html
本地磁盘
虽然spark可以在内存中执行大量计算,但它仍然使用本地磁盘来存储ram中不适合的数据,并保留级之间的中间输出。
对我来说,计算时间一点也不重要,但将数据放入一台计算机的ram/硬盘中进行处理更为重要,因为缺少其他选择。
注:我正在寻找一个解决方案,其中不包括以下项目
增加柱塞
采样并减少数据大小
使用云或群集计算机
我的最终目标是使用sparkmllib来构建机器学习模型。我正在寻找现实生活中的实际解决方案,人们成功地使用spark在一台计算机上以独立/本地模式对不适合ram的数据进行操作。有人成功地做到了这一点没有重大限制?
问题
sas具有相似的核外处理能力,可以同时使用ram和本地硬盘进行建模等。当数据超过ram大小时,spark能否以同样的方式工作?
sas以“.sas7bdat”格式将完整的持久数据集写入硬盘spark可以做类似于硬盘的持久化吗?
如果这是可能的,如何安装和配置Spark为此目的?

wqsoz72f

wqsoz72f1#

看看http://spark.apache.org/docs/latest/programming-guide.html#rdd-持久性您可以根据需要使用各种持久性模型。内存和磁盘将解决您的问题。如果您想获得更好的性能,请使用内存\和磁盘\以串行方式存储数据。

相关问题