数据库风暴直接从mysql喷涌?

kkbh8khc  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(354)

我想使用storm群集实时监视用户活动。目前,用户活动日志保存在mysql中。mysql每分钟大约有100000条记录,每天有20000000条记录。我想每n分钟做一次topn浏览项目排名。如何设计这个喷口?我应该直接从喷口中的mysql查询,还是使用类似kafka的消息队列?我想要实时性能,所以更喜欢第一种方式。但我发现很少有生产实现选择这种方式。为什么?

neskvpey

neskvpey1#

要直接从mysql bin日志发出元组,您可以在github上使用这个mysql喷口(https://github.com/flipkart-incubator/storm-mysql). 这个喷口将以流的形式发出行更新。这个喷口使用了辉煌的开放复制器(https://github.com/whitesock/open-replicator)跟踪垃圾箱日志。
对于您的用例,可能会编写一个类似于以下内容的螺栓:https://github.com/nathanmarz/storm-starter/blob/master/src/jvm/storm/starter/rollingtopwords.java
这种方法消除了对消息队列和更多移动部件的需要。
免责声明:上面提到的mysql喷口的作者。

相关问题