出于某种原因,我想在googleclouddataproc(1.4.3)spark cluster上将apachehive的版本从2.3.4升级到3。如何升级配置单元的版本,同时保持与CloudDataProc工具的兼容性?
xkftehaa1#
不幸的是,没有真正的方法来保证与这些定制的兼容性,而且目前发布的spark版本与hive3.x之间存在已知的不兼容,因此除非您自己交叉编译了所有需要的版本,否则您可能会遇到问题。不过,在任何情况下,如果您只想让有限的功能子集正常工作,那么最简单的方法就是将自定义文件转储到:
/usr/lib/hive/lib/
通过初始化操作在所有节点上。完成此操作后,您可能需要重新启动主节点以更新配置单元元存储和hiveserver2,或者至少运行:
sudo systemctl restart hive-metastore sudo systemctl restart hive-server2
在主节点上。对于spark问题,您可能还需要定制spark版本,并替换以下文件:
/usr/lib/spark/jars/
1条答案
按热度按时间xkftehaa1#
不幸的是,没有真正的方法来保证与这些定制的兼容性,而且目前发布的spark版本与hive3.x之间存在已知的不兼容,因此除非您自己交叉编译了所有需要的版本,否则您可能会遇到问题。
不过,在任何情况下,如果您只想让有限的功能子集正常工作,那么最简单的方法就是将自定义文件转储到:
通过初始化操作在所有节点上。完成此操作后,您可能需要重新启动主节点以更新配置单元元存储和hiveserver2,或者至少运行:
在主节点上。
对于spark问题,您可能还需要定制spark版本,并替换以下文件: