如何设置apachespark在本地模式下当数据不适合ram时使用本地硬盘？

368yc8dk 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(352)

我有50 gb的数据集，这不适合在8 gb的ram我的工作电脑，但它有1 tb的本地硬盘。
官方文档中的以下链接提到，如果数据不适合内存，spark可以使用本地硬盘。
http://spark.apache.org/docs/latest/hardware-provisioning.html
本地磁盘
虽然spark可以在内存中执行大量计算，但它仍然使用本地磁盘来存储ram中不适合的数据，并保留级之间的中间输出。
对我来说，计算时间一点也不重要，但将数据放入一台计算机的ram/硬盘中进行处理更为重要，因为缺少其他选择。
注：我正在寻找一个解决方案，其中不包括以下项目
增加柱塞
采样并减少数据大小
使用云或群集计算机
我的最终目标是使用sparkmllib来构建机器学习模型。我正在寻找现实生活中的实际解决方案，人们成功地使用spark在一台计算机上以独立/本地模式对不适合ram的数据进行操作。有人成功地做到了这一点没有重大限制？
问题
sas具有相似的核外处理能力，可以同时使用ram和本地硬盘进行建模等。当数据超过ram大小时，spark能否以同样的方式工作？
sas以“.sas7bdat”格式将完整的持久数据集写入硬盘spark可以做类似于硬盘的持久化吗？
如果这是可能的，如何安装和配置Spark为此目的？