数据库—对不断变化的大型数据集发出实时警报

bvpmtnay  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(289)

我有一个巨大的数据集,我必须监测异常和发送警报。最接近我要做的事情的例子如下。
假设关系数据库中有一个stocks表:

stocks:
    id
    date
    stock_name
    price

假设我们有一百万只股票在交易。在白天,股票价格不断更新的基础上不断和频繁的现场饲料。在一天结束时,每只股票的最后记录价格就是当天的收盘价。第二天,我们又向表中添加了一百万条记录,并再次开始处理它。
假设用户可以配置如下警报: "When AAPL moves more than 10% than its average for past 10 days, alert me" 或者 "When any stock moves more than 10% of its average for past 10 days, alert me" 我们需要满足不同用户的100个警报。不断地轮询并尝试以固定的间隔匹配警报是不实际的。
你将如何实施它?如果我们需要走大数据路线,什么样的数据存储/缓存有利于解决这些问题。我知道这是一个非常开放的问题,但我正在寻找一个方向,如何解决类似的问题和使用什么工具集。

bybem2ql

bybem2ql1#

这听起来像是流处理器的用例,比如apacheflink或apachestorm。flink和storm都是可伸缩的分布式系统。它们以低延迟(数百毫秒,取决于程序复杂度)连续运行程序,接收和分析数据流。例如,您可以过滤流,定义时间窗口来计算特定时间范围(过去30分钟或10天)内的聚合,或者合并多个数据流。

相关问题