带有HDP2.6堆栈的apache spark 3.0

wecizke3  于 2021-05-24  发布在  Spark
关注(0)|答案(1)|浏览(480)

我们计划在现有hdp2.6集群之外安装apachespark3.0,并在该集群中使用yarn(v2.7)提交作业,无需升级或修改。目前用户正在使用hdp堆栈中包含的spark 2.3。目标是在不中断当前作业的情况下启用ApacheSpark3.0Outside if hdp集群。
最好的方法是什么?在hdp集群外部设置apache3.0客户机节点并从新的客户机节点提交?
有什么建议吗?如何避免与当前hdp堆栈及其组件冲突?

xggvc2p6

xggvc2p61#

从spark源代码3.0.1和特定(HDP2.6)hadoop、hive版本构建spark 3.0.1。然后仅在hdp客户机节点中部署它。spark 3.0.1预构建的二进制文件与Hive1.2.1存在兼容性问题,因为它是用最新的Hive1.2.1构建的。
生成选项:

./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -Phive-1.2 -Phive-thriftserver -DskipTests -Dmaven.test.skip=true clean package

相关问题