Apache Spark 如何从EMR访问现有的Glue目录?

toiithl6  于 2023-06-24  发布在  Apache
关注(0)|答案(2)|浏览(166)

我已经在我的帐户中创建了Glue目录。它有一个DB和一个表。

我从AWS遵循this guide并创建了我的EMR集群。但是,当我运行spark-shell并尝试访问Glue catalog时,我无法在EMR中看到正在访问的Glue catalog数据库。

我错过了什么?

dgenwo3n

dgenwo3n1#

看起来Spark并没有在集群中使用Glue DataCatalog。在创建集群时,您是否为Spark启用了Glue catalog选项?对于现有集群,您可以在控制台中查看集群配置。它应该有这样的东西:

[
  {
    "Classification": "spark-hive-site",
    "Properties": {
      "hive.metastore.client.factory.class": "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory"
    }
  }
]

如果您的集群设置了以上配置,Spark仍然无法从Glue catalog中获取信息,您可能需要在Spark中启用DEBUG级别日志记录以获取更多详细信息。

qnakjoqk

qnakjoqk2#

这不是问题。我试图在US-East-1中启动EMR,由于某种原因,即使底层EC2已配置并处于运行状态,EMR也没有配置。我可以ssh到EC2并在它们上运行spark-shell。
我在美国东部2号发射了一个EMR,它完全被配置好了。我能够成功连接到Glue目录。

相关问题