我正在使用aws(基本支持计划)。我想知道哪个版本的spark和hadoop(hdfs)正在aws胶水作业中使用。这样我就可以在本地机器上设置相同的环境进行开发。
或者,如果我知道spark的版本,那么对应的hadoop版本是由aws glue jobs使用的,反之亦然。
因为我使用的是基本支持计划。所以,我不能把案子提交给支援中心。你知道我可以在哪里登记工作吗。。。spark和hadoop版本?
任何帮助和建议都将不胜感激。谢谢!
我正在使用aws(基本支持计划)。我想知道哪个版本的spark和hadoop(hdfs)正在aws胶水作业中使用。这样我就可以在本地机器上设置相同的环境进行开发。
或者,如果我知道spark的版本,那么对应的hadoop版本是由aws glue jobs使用的,反之亦然。
因为我使用的是基本支持计划。所以,我不能把案子提交给支援中心。你知道我可以在哪里登记工作吗。。。spark和hadoop版本?
任何帮助和建议都将不胜感激。谢谢!
2条答案
按热度按时间ffscu2ro1#
aws glue支持apachespark2.2.1,如本文所述
aws还没有为aws glue编写hadoop版本的文档。然而,as-aws-glue实际上是由aws-emr支持的,hadoop版本将是2.8.x。
根据以下文档或aws emr上的hadoop/spark,我假设它是2.8.3。
aws emr hadoop发布历史记录
aws emrSpark释放历史
其中发布标签5.12.2包含spark 2.2.1和hadoop 2.8.3
hkmswyz62#
如果使用spark>2.0,则
1.In Pyspark:
获取spark版本:Spark<2.0时:
获取hadoop版本:
println ("Spark Version:" + spark.version)
sc.version
println("Hadoop version: " + org.apache.hadoop.util.VersionInfo.getVersion())