需要spark与hive关系的用例或示例吗

mm5n2pyu  于 2021-06-27  发布在  Hive
关注(0)|答案(1)|浏览(315)

我正在阅读“spark与Hive的关系”一节中的spark权威指南。下面几行是
“使用spark sql,您可以连接到配置单元元存储(如果您已经有了)并访问表元数据,以减少访问信息时的文件列表。对于从传统hadoop环境迁移并开始使用spark运行所有工作负载的用户来说,这是很流行的
我不明白这是什么意思。有人请帮助我与上述用例的例子。

but5z9lq

but5z9lq1#

spark是hadoop生态系统中最新的工具,它与早期的hadoop工具具有连接性。Hive是最近最流行的。大多数hadoop平台都将数据存储在hive表中,可以使用hive作为sql引擎来访问这些表。不过,spark也可以做同样的事情。
因此,给定的语句提到可以连接到hivemetastore(其中包含有关现有表、数据库、它们的位置、模式、文件类型等的信息),然后可以对它们运行类似的hive查询,就像使用hive一样。
下面是两个示例,您可以在连接到HiveMetaStore后使用spark进行操作。

  1. spark.sql("show databases")
  2. spark.sql("select * from test_db.test_table")

我希望这能回答你的问题。

相关问题