数据库—对不断变化的大型数据集发出实时警报

bvpmtnay 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(289)

我有一个巨大的数据集，我必须监测异常和发送警报。最接近我要做的事情的例子如下。
假设关系数据库中有一个stocks表：

stocks:
    id
    date
    stock_name
    price

假设我们有一百万只股票在交易。在白天，股票价格不断更新的基础上不断和频繁的现场饲料。在一天结束时，每只股票的最后记录价格就是当天的收盘价。第二天，我们又向表中添加了一百万条记录，并再次开始处理它。
假设用户可以配置如下警报： "When AAPL moves more than 10% than its average for past 10 days, alert me" 或者 "When any stock moves more than 10% of its average for past 10 days, alert me" 我们需要满足不同用户的100个警报。不断地轮询并尝试以固定的间隔匹配警报是不实际的。
你将如何实施它？如果我们需要走大数据路线，什么样的数据存储/缓存有利于解决这些问题。我知道这是一个非常开放的问题，但我正在寻找一个方向，如何解决类似的问题和使用什么工具集。

hadoop apache-spark Database bigdata real-time

来源：https://stackoverflow.com/questions/34210715/real-time-alerts-on-a-big-and-constantly-changing-dataset

1条答案

按热度按时间

bybem2ql1#

这听起来像是流处理器的用例，比如apacheflink或apachestorm。flink和storm都是可伸缩的分布式系统。它们以低延迟（数百毫秒，取决于程序复杂度）连续运行程序，接收和分析数据流。例如，您可以过滤流，定义时间窗口来计算特定时间范围（过去30分钟或10天）内的聚合，或者合并多个数据流。

赞(0）回复(0）举报 2021-06-02

我来回答

数据库—对不断变化的大型数据集发出实时警报

1条答案

相关问题

热门标签

最新问答