通过mesos到mongodb的spark

juzqafwq  于 2021-06-26  发布在  Mesos
关注(0)|答案(2)|浏览(335)

我正在尝试使用mesos将apachespark连接到mongodb。以下是我的架构:-
mongodb:mongodb集群,包含2个shard、1个配置服务器和1个查询服务器。迈索斯:1个迈索斯主人,4个迈索斯奴隶
现在我只在一个节点上安装了spark。关于这方面的信息不多。我只想提几个问题:-
据我所知,我可以通过mesos将spark连接到mongodb。换句话说,我最终使用mongodb作为存储层。我真的需要hadoop吗?仅仅为了spark读取数据,就必须将所有数据拉入hadoop吗?
这就是我问这个问题的原因。spark安装需要设置hadoop\u home变量。这似乎是非常紧密的耦合!!网上的大多数帖子都在谈论mongodb hadoop连接器。如果你强迫我把所有东西都放到hadoop上,那就没有意义了。
有人有答案吗?
向马里奥问好

flvlnr44

flvlnr441#

spark本身依赖于hadoop,hdfs中的数据可以用作数据源。
但是,如果您使用mongospark连接器,就可以使用mongodb作为spark的数据源,而无需通过hadoop。

xeufq47z

xeufq47z2#

spark mongo连接器是个好主意,而且如果您在hadoop集群中执行spark,您需要将hadoop\u设置为home。
检查你的需求并测试它(教程)

Basic working knowledge of MongoDB and Apache Spark. Refer to the MongoDB documentation and Spark documentation.
Running MongoDB instance (version 2.6 or later).
Spark 1.6.x.
Scala 2.10.x if using the mongo-spark-connector_2.10 package
Scala 2.11.x if using the mongo-spark-connector_2.11 package

与用于hadoop的mongodb连接器相比,用于apachespark的新mongodb连接器提供了更高的性能、更易用性和更高级的spark功能。下表比较了两个连接器的功能。
然后您需要使用mesos配置spark:
连接Spark与Mesos

To use Mesos from Spark, you need a Spark binary package available in a place accessible by Mesos, and a Spark driver program configured to connect to Mesos.

Alternatively, you can also install Spark in the same location in all the Mesos slaves, and configure spark.mesos.executor.home (defaults to SPARK_HOME) to point to that location.

相关问题