在谷歌搜索了几个小时后,我找不到任何关于这个的信息,所以我希望我能对我的问题有一些想法。
我正在尝试使用spark2从远程配置单元集群获取数据。我遵循了:
如何在sparksql中以编程方式连接到配置单元元存储?
如何从spark连接到远程hive服务器
我成功地连接到远程hive元存储。
但是,当我在远程配置单元中执行查询时,问题就开始了。e、 g spark.sql(“从表中选择count(*))。我将得到一个“未知主机:ns bigdata”错误。其中ns bigdata是远程集群的集群名称。
我还缺什么?我需要指定hive.metastore.warehouse.dir也应该在哪里吗?例如。hdfs://local-cluster:8020/用户/Hive/仓库
提前谢谢。
2条答案
按热度按时间zynd9foi1#
真正的原因是客户没有在hive-thrift服务器中为跨域身份验证设置kerberos证书。我们最终使用了jdbc impala。
0sgqnhkj2#
配置单元服务器url位于配置单元站点中。你能试着用一下吗??还要检查spark的conf/目录中是否存在hive-site.xml