如果我在cassandra表(3节点集群)中有一个大数据集,并且需要对每天收到的记录执行求和操作,有谁能推荐我可以探索哪种技术。这样计算的计数需要在mysql表中更新。
Steps to perform -
1. Fetch Ids from MY SQL table
2. Run Sum operation from Cassandra table
3. Insert/update the calculated sum value in MYSQL table
目前,我使用纯java来执行这些任务,使用sql和cql查询,但是它的速度非常慢,而且将来的数据将以指数级增长。
有没有人能提出一些可以探索的技术,以便以尽可能快的方式和最少的开发时间完成这项任务。
1条答案
按热度按时间zbdgwd5y1#
没有什么好推荐的,这只取决于你的任务和你自己的喜好。
ApacheStorm是一个流引擎,如果您想处理条目流,而不是像您的案例中那样的一批数据,那就太好了。
apachespark和apacheflink都允许您每天执行一次批处理作业,或者制作一个流应用程序,从一天开始计算结果。
我更喜欢apachespark,因为它有用于批处理和流处理作业的统一api(因此您可以轻松地将代码从批处理更改为流处理)和强大的社区支持。apache flink支持实时流,但是在您的情况下不需要。
但是,您应该自己查看和选择这两个框架,然后选择这个更适合您的框架。依我看他们两个都可以