我有大量的数据记录(约15亿条)和大量的查询(约1万条)。每个记录可以匹配多个查询(可以通过对数据记录的查询求值来确定)这些记录存储在一个分布式数据库中。每个记录都有一个字段来存储与此数据记录匹配的查询的id。我可以在大约15分钟内扫描所有记录(但对数据不做任何处理)。对于每一个记录。我想用它匹配的查询id来标记它。毫不拖延地(例如:1小时)。有没有一个好的算法可以做到这一点?在查询上迭代每个查询不是解决方案。我认为需要某种索引。请帮帮我!谢谢!
yjghlzjz1#
apache pig在默认情况下打开了multiquery。如果您的查询共享相同的数据源,那么pig将并行执行它们,这样输入数据只读取一次。
1条答案
按热度按时间yjghlzjz1#
apache pig在默认情况下打开了multiquery。如果您的查询共享相同的数据源,那么pig将并行执行它们,这样输入数据只读取一次。