读取mongodb集合时在pyspark中指定字段

6rqinv9w  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(494)

如何修改它以指定要从集合中查看的字段?我不想查看整个收藏

df = my_spark.read.format("mongo").option("uri",
        "mongodb://localhost:27017/db_name.collection_name").load()
mccptt67

mccptt671#

如果要过滤记录数,可以按此处所述应用聚合

pipeline = "{'$match': {'type': 'apple'}}"
df = my_spark.read.format("mongo").option("uri",
        "mongodb://localhost:27017/db_name.collection_name").option("pipeline", pipeline).load()

如果您只想指定几个列,那么您可以读取整个集合,然后选择所需的一次,因为spark将惰性地计算这些列并应用下推预测

df = my_spark.read.format("mongo").option("uri",
        "mongodb://localhost:27017/db_name.collection_name").load().select('column1',column2')

相关问题