我正在尝试使用mesos将apachespark连接到mongodb。以下是我的架构:-
mongodb:mongodb集群,包含2个shard、1个配置服务器和1个查询服务器。迈索斯:1个迈索斯主人,4个迈索斯奴隶
现在我只在一个节点上安装了spark。关于这方面的信息不多。我只想提几个问题:-
据我所知,我可以通过mesos将spark连接到mongodb。换句话说,我最终使用mongodb作为存储层。我真的需要hadoop吗?仅仅为了spark读取数据,就必须将所有数据拉入hadoop吗?
这就是我问这个问题的原因。spark安装需要设置hadoop\u home变量。这似乎是非常紧密的耦合!!网上的大多数帖子都在谈论mongodb hadoop连接器。如果你强迫我把所有东西都放到hadoop上,那就没有意义了。
有人有答案吗?
向马里奥问好
2条答案
按热度按时间flvlnr441#
spark本身依赖于hadoop,hdfs中的数据可以用作数据源。
但是,如果您使用mongospark连接器,就可以使用mongodb作为spark的数据源,而无需通过hadoop。
xeufq47z2#
spark mongo连接器是个好主意,而且如果您在hadoop集群中执行spark,您需要将hadoop\u设置为home。
检查你的需求并测试它(教程)
与用于hadoop的mongodb连接器相比,用于apachespark的新mongodb连接器提供了更高的性能、更易用性和更高级的spark功能。下表比较了两个连接器的功能。
然后您需要使用mesos配置spark:
连接Spark与Mesos