spark sql与spark上的配置单元

rryofs0p  于 2021-06-28  发布在  Hive
关注(0)|答案(1)|浏览(417)

spark sql和spark上的配置单元之间的差异。我正在阅读spark和sql的文档,并试图理解spark-sql和spark上的配置单元之间的区别。
考虑这样一个例子:当我启动一个spark会话时,没有任何明显的hive支持,比如复制 hive-site.xml 然后在spark程序中持久化一个表,数据和元数据将存储在哪里。spark是否会创建一个新的hive元存储(如derby)?
考虑一个例子,当我启动一个spark会话,并支持hive,比如复制 hive-ste.xml 让spark意识到现有的Hive。如果我坚持这个表,那么数据和元数据将存储在我现有的hivemetastore中,数据将存储在hdfs的warehouse目录中。
如果我通过将executionengine属性更改为spark来运行hive,那么它是否与上面提到的案例2相同?
谢谢。

nr7wwzry

nr7wwzry1#

当您启动spark会话时,数据可以存储在s3或hdfs中。如果您不显式地创建一个配置单元会话,它就不会固有地创建一个配置单元会话。
如果使用“saveastable”子句引用配置单元表,则返回yes。数据将在hdfs中持久化。请记住,如果您删除hdfs示例(如emr中的示例),表将与其数据一起删除。
不确定问题3

相关问题