导入与安装spark

iih3973s  于 2021-07-14  发布在  Spark
关注(0)|答案(1)|浏览(353)

我是新的Spark世界和某种程度上编码。
这个问题似乎太基本了,但请澄清我的困惑。
我知道我们必须导入spark库来编写spark应用程序。我使用intellij和sbt。在编写应用程序之后,我还可以运行它们并在“run”上查看输出。
我的问题是,如果我可以将它们作为库导入并运行它们,为什么我要在我的机器(本地)上单独安装spark呢。另外,由于我们只需提交jar文件,而且jvm已经存在于clustor的所有机器中,所以需要在集群上安装jvm吗
谢谢你的帮助!

rur96b6h

rur96b6h1#

我理解你的困惑。
事实上,如果你正在运行spark,你并不需要在你的机器上安装spark scala/java 你可以将spark core或任何其他依赖项导入到你的项目中,一旦你在mainclass上启动spark作业,它就会在你的机器上创建一个独立的spark runner并在上面运行你的作业( local[*] ).
在本地机器上使用spark有很多原因。
其中之一是在pyspark上运行spark作业,它需要spark/python/etc库和一个运行程序(local[]或remote[])。
另一个原因可能是,如果你想运行你的工作前提。
在本地数据中心上创建集群可能会更容易,并且可能会将您的计算机指定为主计算机,而将连接到主计算机的其他计算机指定为工作计算机(此解决方案可能有点幼稚,但您要求提供基础知识,因此这可能会激发您的好奇心,以便更多地了解数据处理系统的基础结构设计)

相关问题