mongodb&spark:mongohadoop和mongospark的区别

2guxujil  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(415)

mongohadoop和mongospark connector有什么区别?pymongo是否只支持mangohadoop?
pymongo是否只与mongohadoop一起使用?

tcomlyy6

tcomlyy61#

用于hadoop的mongodb连接器是一个库,它允许mongodb(或其数据格式的备份文件,bson)用作hadoop mapreduce任务的输入源或输出目标。它的设计允许更大的灵活性和性能,并使mongodb中的数据与hadoop生态系统的其他部分(包括以下部分)轻松集成:
Pig
Spark
MapReduce
hadoop流媒体
Hive
渡槽
spark的mongodb连接器提供了mongodb和apachespark之间的集成。
通过连接器,您可以访问用于mongodb数据集的所有spark库:用于sql分析的数据集(受益于自动模式推断)、流式处理、机器学习和图形api。您也可以使用带有Spark壳的连接器。
pymongo不支持pyspark,但spark连接器支持:
https://docs.mongodb.com/spark-connector/master/python-api/

相关问题