我想使用find操作查询mongo db,而不是加载整个集合,然后应用大多数文档中提到的pyspark过滤器。有什么办法可以做到这一点吗?我正在寻找可以查询Mongo的东西,而不是将整个Mongo集合加载到PySpark中
nr7wwzry1#
这可以使用“管道”选项来完成
df = spark.read \ .format("com.mongodb.spark.sql.DefaultSource") \ .option("uri", "mongodb://<host>:<port>/<database>.<collection>") \ .option("aggregation.pipeline", "[{'$match': {<query>}}]") \ .load()
字符串
1条答案
按热度按时间nr7wwzry1#
这可以使用“管道”选项来完成
字符串