我正在阅读“spark与Hive的关系”一节中的spark权威指南。下面几行是“使用spark sql,您可以连接到配置单元元存储(如果您已经有了)并访问表元数据,以减少访问信息时的文件列表。对于从传统hadoop环境迁移并开始使用spark运行所有工作负载的用户来说,这是很流行的我不明白这是什么意思。有人请帮助我与上述用例的例子。
but5z9lq1#
spark是hadoop生态系统中最新的工具,它与早期的hadoop工具具有连接性。Hive是最近最流行的。大多数hadoop平台都将数据存储在hive表中,可以使用hive作为sql引擎来访问这些表。不过,spark也可以做同样的事情。因此,给定的语句提到可以连接到hivemetastore(其中包含有关现有表、数据库、它们的位置、模式、文件类型等的信息),然后可以对它们运行类似的hive查询,就像使用hive一样。下面是两个示例,您可以在连接到HiveMetaStore后使用spark进行操作。
spark.sql("show databases")spark.sql("select * from test_db.test_table")
spark.sql("show databases")
spark.sql("select * from test_db.test_table")
我希望这能回答你的问题。
1条答案
按热度按时间but5z9lq1#
spark是hadoop生态系统中最新的工具,它与早期的hadoop工具具有连接性。Hive是最近最流行的。大多数hadoop平台都将数据存储在hive表中,可以使用hive作为sql引擎来访问这些表。不过,spark也可以做同样的事情。
因此,给定的语句提到可以连接到hivemetastore(其中包含有关现有表、数据库、它们的位置、模式、文件类型等的信息),然后可以对它们运行类似的hive查询,就像使用hive一样。
下面是两个示例,您可以在连接到HiveMetaStore后使用spark进行操作。
我希望这能回答你的问题。