在数千个查询中匹配大量数据记录

roqulrg3 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(329)

我有大量的数据记录（约15亿条）和大量的查询（约1万条）。
每个记录可以匹配多个查询（可以通过对数据记录的查询求值来确定）
这些记录存储在一个分布式数据库中。每个记录都有一个字段来存储与此数据记录匹配的查询的id。
我可以在大约15分钟内扫描所有记录（但对数据不做任何处理）。
对于每一个记录。我想用它匹配的查询id来标记它。毫不拖延地（例如：1小时）。有没有一个好的算法可以做到这一点？在查询上迭代每个查询不是解决方案。我认为需要某种索引。请帮帮我！谢谢！

hadoop hbase

来源：https://stackoverflow.com/questions/12281844/match-mass-data-records-within-thousands-of-queries