在数千个查询中匹配大量数据记录

roqulrg3  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(329)

我有大量的数据记录(约15亿条)和大量的查询(约1万条)。
每个记录可以匹配多个查询(可以通过对数据记录的查询求值来确定)
这些记录存储在一个分布式数据库中。每个记录都有一个字段来存储与此数据记录匹配的查询的id。
我可以在大约15分钟内扫描所有记录(但对数据不做任何处理)。
对于每一个记录。我想用它匹配的查询id来标记它。毫不拖延地(例如:1小时)。有没有一个好的算法可以做到这一点?在查询上迭代每个查询不是解决方案。我认为需要某种索引。请帮帮我!谢谢!

yjghlzjz

yjghlzjz1#

apache pig在默认情况下打开了multiquery。如果您的查询共享相同的数据源,那么pig将并行执行它们,这样输入数据只读取一次。

相关问题