我已经在我的帐户中创建了Glue目录。它有一个DB和一个表。
我从AWS遵循this guide并创建了我的EMR集群。但是,当我运行spark-shell
并尝试访问Glue catalog时,我无法在EMR中看到正在访问的Glue catalog数据库。
我错过了什么?
我已经在我的帐户中创建了Glue目录。它有一个DB和一个表。
我从AWS遵循this guide并创建了我的EMR集群。但是,当我运行spark-shell
并尝试访问Glue catalog时,我无法在EMR中看到正在访问的Glue catalog数据库。
我错过了什么?
2条答案
按热度按时间dgenwo3n1#
看起来Spark并没有在集群中使用Glue DataCatalog。在创建集群时,您是否为Spark启用了Glue catalog选项?对于现有集群,您可以在控制台中查看集群配置。它应该有这样的东西:
如果您的集群设置了以上配置,Spark仍然无法从Glue catalog中获取信息,您可能需要在Spark中启用DEBUG级别日志记录以获取更多详细信息。
qnakjoqk2#
这不是问题。我试图在US-East-1中启动EMR,由于某种原因,即使底层EC2已配置并处于运行状态,EMR也没有配置。我可以ssh到EC2并在它们上运行spark-shell。
我在美国东部2号发射了一个EMR,它完全被配置好了。我能够成功连接到Glue目录。