如何每小时读取一次大数据集

wnavrhmk  于 2021-06-07  发布在  Kafka
关注(0)|答案(0)|浏览(263)

例如,我有3000万条记录,存储在我们的数据存储中。然后我想每隔2小时随机读取其中的一小部分:例如,我想每2小时读取100万条随机记录,并对它们采取措施。解决这类问题的最佳方法是什么?
我应该全部读取3000万,并将它们存储在队列中(例如,kafak),然后每隔2小时运行一个作业从队列中读取。
或者我应该把我的查询设计成读取100万条记录,然后有一个作业,每2小时运行一次查询,得到数据集,然后在处理之后删除它们?
有没有适合这种情况的开源框架?只有在总数据就绪的情况下,如何安排作业?
谢谢,陈

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题