如何在gcp apache spark dataproc集群上将apache hive升级到版本3

kd3sttzy  于 2021-06-24  发布在  Hive
关注(0)|答案(1)|浏览(921)

出于某种原因,我想在googleclouddataproc(1.4.3)spark cluster上将apachehive的版本从2.3.4升级到3。如何升级配置单元的版本,同时保持与CloudDataProc工具的兼容性?

xkftehaa

xkftehaa1#

不幸的是,没有真正的方法来保证与这些定制的兼容性,而且目前发布的spark版本与hive3.x之间存在已知的不兼容,因此除非您自己交叉编译了所有需要的版本,否则您可能会遇到问题。
不过,在任何情况下,如果您只想让有限的功能子集正常工作,那么最简单的方法就是将自定义文件转储到:

/usr/lib/hive/lib/

通过初始化操作在所有节点上。完成此操作后,您可能需要重新启动主节点以更新配置单元元存储和hiveserver2,或者至少运行:

sudo systemctl restart hive-metastore
sudo systemctl restart hive-server2

在主节点上。
对于spark问题,您可能还需要定制spark版本,并替换以下文件:

/usr/lib/spark/jars/

相关问题