apachespark流媒体中的java非关联聚合

dphi5xsq  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(263)

我试图在apachespark streaming上用java构建一个实用层,用户可以在一段时间内(使用spark中的窗口函数)聚合数据,但似乎所有可用的选项都需要关联函数(使用两个参数)。然而,对于一些相当常见的用例,如平均温度传感器值超过一小时,等等,似乎不可能与sparkapi。
有没有其他方法可以实现这种功能?我正在考虑实现重复的交互式查询来实现这一点,但这太慢了。

fykwrbwg

fykwrbwg1#

统计总量(平均值、方差)实际上是关联的,可以在线计算。请看这里的一个很好的数字方法来做这件事。
关于参数的数量,记住你在参数中输入的类型是你自己选择的。可以使用元组在其中一个中嵌套多个参数。
最后,您还可以将有状态信息与updatestatebykey之类的东西一起使用。

相关问题