我们计划在现有hdp2.6集群之外安装apachespark3.0,并在该集群中使用yarn(v2.7)提交作业,无需升级或修改。目前用户正在使用hdp堆栈中包含的spark 2.3。目标是在不中断当前作业的情况下启用ApacheSpark3.0Outside if hdp集群。
最好的方法是什么?在hdp集群外部设置apache3.0客户机节点并从新的客户机节点提交?
有什么建议吗?如何避免与当前hdp堆栈及其组件冲突?
我们计划在现有hdp2.6集群之外安装apachespark3.0,并在该集群中使用yarn(v2.7)提交作业,无需升级或修改。目前用户正在使用hdp堆栈中包含的spark 2.3。目标是在不中断当前作业的情况下启用ApacheSpark3.0Outside if hdp集群。
最好的方法是什么?在hdp集群外部设置apache3.0客户机节点并从新的客户机节点提交?
有什么建议吗?如何避免与当前hdp堆栈及其组件冲突?
1条答案
按热度按时间xggvc2p61#
从spark源代码3.0.1和特定(HDP2.6)hadoop、hive版本构建spark 3.0.1。然后仅在hdp客户机节点中部署它。spark 3.0.1预构建的二进制文件与Hive1.2.1存在兼容性问题,因为它是用最新的Hive1.2.1构建的。
生成选项: