cassandra和聚合数据

ojsjcaue  于 2021-06-26  发布在  Kylin
关注(0)|答案(1)|浏览(506)

我们有一个基于“遗留”sql server的应用程序,它保存oltp数据(销售):
oltp数据结构非常复杂
但我们必须把它作为报告的来源
关于oltp结构的报告非常缓慢
所以我们准备并保持实际的“olap”视图,比如说,每天的销售额,每个视图实际上是ms sql数据库中的一个表
主要问题:当我们需要一个新视图时,扫描所有现有的oltp数据会花费很多时间。
现在我们想迁移到Cassandra,我们应该用同样的方法来实现同样的目标还是:
也许我们最好使用spark/kylin这样的工具,他们能这样做吗?
也许方法可以改变?

ktecyv1j

ktecyv1j1#

这可能不是你想要寻找的答案。不过,我只想与大家分享我们与Cassandra和聚合数据的经验。在我们的项目中,我们需要从世界各地的服务器收集数据,并相应地执行聚合。有些指标是每台服务器每小时的消息数、每个地理区域的消息数等。因此,一旦有新的数据进入,它将自动启动批处理过程以执行聚合,或者将数据插入多个表/视图。我们正在使用 apache-spark 作为处理引擎,我们还使用了cassandra中的一些概念,例如 materialized view , secondary index , custom trigger 基于特定用例。在设计数据模型时,一个重要的问题是忘记nf,基本上,nosql一般不需要nf。
简言之,我可以说从传统数据库迁移到nosql数据库一开始可能很麻烦。但最后的结果在性能和可用性方面都是令人满意的。

相关问题