hadoop mongoconfigutil查询限制

ioekq8ef 于 2021-06-02 发布在 Hadoop

关注(0)|答案(2)|浏览(281)

我使用javamongodb连接器对mongodb运行hadoopmapreduce作业。
我正在用 MongoConfigUtil ```
MongoConfigUtil.setInputURI( conf, "mongodb://host/db.collection" );
MongoConfigUtil.setOutputURI( conf, "mongodb://host/db.collectionOut" );

作业正在正确获取指定集合中的所有文档。
有没有办法限制提取文档的数量？
我希望实现这个查询（mongo风格）：

db.collection.find().limit(1000)

我知道 `MongoConfigUtil` 有一个 `SetQuery` 方法，但如何设置限制查询？有什么提示吗？
我试图补充

MongoConfigUtil.setLimit(conf, 1000)

但我还是拿到了所有的文件。

Java hadoop mongodb mapreduce mongodb-query

来源：https://stackoverflow.com/questions/35675367/hadoop-mongoconfigutil-query-limit

2条答案

按热度按时间

xmq68pz91#

我使用mongoinputsplit类的setlimit方法找到了解决方案，它传递了要获取的文档数。

myMongoInputSplitObj = new MongoInputSplit(*param*)
myMongoInputSplitObj.setLimit(100)

mongoconfigutil设置限制
允许用户设置mongoinputsplits的限制（hadoop-267）。

赞(0）回复(0）举报 2021-06-02

lzfw57am2#

setsplitsize 8 mb是默认大小，此属性的优先级高于setlimit（mongo.input.limit）。

Example mongoConfig.setSplitSize(5); // MB - 8 MB Deafault

在上面的示例中，我将值设置为5MB。如果为每个mapper.setlimit获取的每个块指定的限制大小（例如1000），则表示每个块（分割）查询限制的限制。
我想您应该限制整个mapreduce过程的查询。setquery是find（）中的查询，它必须以类似mongodb的json格式表示。据我所知，您不能在mongo query（find（））中进行限制。您可以根据自己的情况找到另一种过滤查询的方法，如{fieldname:{$lt:20}}。此外，您可以根据使用投影的限制创建一个单独的集合，然后在那里应用mapreduce。
最后，使用setquery过滤集合。

赞(0）回复(0）举报 2021-06-02

我来回答

hadoop mongoconfigutil查询限制

2条答案

相关问题

热门标签

最新问答