它们如何相互协作?

brjng4g3  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(287)

我不知道应该使用哪种组合来实现我的目标,我需要在hdfs中存储数据,并且需要根据查询到的数据执行分析。
对此没有什么疑问:
如果我在hadoop中使用hive,那么它将使用map reduce,这将减慢我的查询速度
如果我使用spark引擎来评估查询,它会比hadoop更快,但是hdfs呢。我将不得不创建另一个hadoop集群来在hdfs中存储数据。
如果我们有sparksql,那么hive需要什么呢?
如果我使用sparksql,那么它将如何连接到hdfs?
如果有人能解释一下这些工具的用法。谢谢!!

pcww981p

pcww981p1#

你可以在spark上使用hive。https://cwiki.apache.org/confluence/display/hive/hive+on+spark
您不需要创建另一个hadoop集群。spark可以从hdfs访问数据。
spark可以与Hive一起工作,也可以不与Hive一起工作。
spark可以连接到多个数据源,包括hdfs。

相关问题