我们如何在开源spark和hortonworks的hadoop沙盒中使用集群?

dzjeubhm  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(399)

我有一个概念性的问题。我下载了apachespark和hortonworkshadoop沙盒。据我所知,我们通过将任务分配到多台机器或集群来分析大数据。amazon web服务在客户为其服务付费时提供集群。但是在spark或hadoop的例子中,我下载这些环境时使用的是谁的集群?他们说这些环境提供了一个单节点集群,也就是说,我假设我的计算机本身。但是,如果我局限于我的电脑本身,我怎么能分析大数据呢?简而言之,在我自己的笔记本电脑上使用spark的逻辑是什么?

3npbholx

3npbholx1#

环境正是他们所说的,一个沙箱。它可以用来测试功能,但不能测试性能,因为正如你所说的,它们正在耗尽你的笔记本电脑。虚拟机配置了所有必要的软件来测试这个。
如果您希望获得spark真正的性能潜力,那么您将需要使用这里描述的过程在服务器集群上安装spark,然后您将真正使用刚刚安装spark的服务器的计算能力。
希望有帮助!

相关问题