从pyspark在mongo上应用查找查询

wkftcu5l  于 2023-08-03  发布在  Spark
关注(0)|答案(1)|浏览(130)

我想使用find操作查询mongo db,而不是加载整个集合,然后应用大多数文档中提到的pyspark过滤器。有什么办法可以做到这一点吗?
我正在寻找可以查询Mongo的东西,而不是将整个Mongo集合加载到PySpark中

nr7wwzry

nr7wwzry1#

这可以使用“管道”选项来完成

df = spark.read \
    .format("com.mongodb.spark.sql.DefaultSource") \
    .option("uri", "mongodb://<host>:<port>/<database>.<collection>") \
    .option("aggregation.pipeline", "[{'$match': {<query>}}]") \
    .load()

字符串

相关问题