如何在gcp apache spark dataproc集群上将apache hive升级到版本3

kd3sttzy 于 2021-06-24 发布在 Hive

关注(0)|答案(1)|浏览(922)

出于某种原因，我想在googleclouddataproc（1.4.3）spark cluster上将apachehive的版本从2.3.4升级到3。如何升级配置单元的版本，同时保持与CloudDataProc工具的兼容性？

1条答案

不幸的是，没有真正的方法来保证与这些定制的兼容性，而且目前发布的spark版本与hive3.x之间存在已知的不兼容，因此除非您自己交叉编译了所有需要的版本，否则您可能会遇到问题。
不过，在任何情况下，如果您只想让有限的功能子集正常工作，那么最简单的方法就是将自定义文件转储到：

/usr/lib/hive/lib/

通过初始化操作在所有节点上。完成此操作后，您可能需要重新启动主节点以更新配置单元元存储和hiveserver2，或者至少运行：

sudo systemctl restart hive-metastore
sudo systemctl restart hive-server2

在主节点上。
对于spark问题，您可能还需要定制spark版本，并替换以下文件：

/usr/lib/spark/jars/