mongohadoop和mongospark connector有什么区别?pymongo是否只支持mangohadoop?pymongo是否只与mongohadoop一起使用?
tcomlyy61#
用于hadoop的mongodb连接器是一个库,它允许mongodb(或其数据格式的备份文件,bson)用作hadoop mapreduce任务的输入源或输出目标。它的设计允许更大的灵活性和性能,并使mongodb中的数据与hadoop生态系统的其他部分(包括以下部分)轻松集成:PigSparkMapReducehadoop流媒体Hive渡槽spark的mongodb连接器提供了mongodb和apachespark之间的集成。通过连接器,您可以访问用于mongodb数据集的所有spark库:用于sql分析的数据集(受益于自动模式推断)、流式处理、机器学习和图形api。您也可以使用带有Spark壳的连接器。pymongo不支持pyspark,但spark连接器支持:https://docs.mongodb.com/spark-connector/master/python-api/
1条答案
按热度按时间tcomlyy61#
用于hadoop的mongodb连接器是一个库,它允许mongodb(或其数据格式的备份文件,bson)用作hadoop mapreduce任务的输入源或输出目标。它的设计允许更大的灵活性和性能,并使mongodb中的数据与hadoop生态系统的其他部分(包括以下部分)轻松集成:
Pig
Spark
MapReduce
hadoop流媒体
Hive
渡槽
spark的mongodb连接器提供了mongodb和apachespark之间的集成。
通过连接器,您可以访问用于mongodb数据集的所有spark库:用于sql分析的数据集(受益于自动模式推断)、流式处理、机器学习和图形api。您也可以使用带有Spark壳的连接器。
pymongo不支持pyspark,但spark连接器支持:
https://docs.mongodb.com/spark-connector/master/python-api/