此问题在此处已有答案:
Python 3.10 is the default PyCharm update for pyspark/spark 3.0.0.preview - are these two compatible?(1个答案)
昨天关门了。
Spark下载文档如下:
Spark runs on Java 8/11/17, Scala 2.12/2.13, Python 3.7+ and R 3.5+.
Java 8 prior to version 8u201 support is deprecated as of Spark 3.2.0.
When using the Scala API, it is necessary for applications
to use the same version of Scala that Spark was compiled for.
For example, when using Scala 2.13, use Spark compiled for 2.13,
and compile code/applications for Scala 2.13 as well.
在下载站点上,有几个选项可以下载不同的版本,这些版本实际上可以一起工作。如果我们还考虑到对WinUtils的需求和对Py 4J的需求,复杂性就会增加。在下载一个配置为与Hadoop一起工作的版本时,只有一个jar文件,文档中表明Hadoop是“内置的”。
截至2022年11月的版本混合为
* Hadoop 3.3 or later
* Hadoop 3.3 or later (Scala 2.13)
* Prebuilt for Hadoop 2.7
* Prebuilt with user provided Hadoop
* Source Code
在Hadoop 2.7课程的指导中,第一个测试是在cmd窗口中运行Spark-Shell。各种各样的错误令人沮丧。最新的是Scala版本5.0,预期为5.2。
有没有一种简单的方法来判断要下载哪个版本?考虑到2022年11月的日期和当前的下载列表,并知道Java的版本是1.8.0_321 -什么是最大的赌注,一个新的下载,实际上将工作在一个重新镜像的系统?
1条答案
按热度按时间8fq7wneg1#
随Hadoop 2.7实施课程提供的说明
显然您会使用
Prebuilt for Hadoop 2.7
。Scala版本对于初始设置应该没有影响,但是您将从Spark的最新版本下载到的可能是2.13
。(实际上,下载时看起来是2.12。There is no version 5.x)我建议将Java升级到11,因为8已经非常接近生命周期结束/支持。
如前所述,您还可以use Docker