我试图在apachespark streaming上用java构建一个实用层,用户可以在一段时间内(使用spark中的窗口函数)聚合数据,但似乎所有可用的选项都需要关联函数(使用两个参数)。然而,对于一些相当常见的用例,如平均温度传感器值超过一小时,等等,似乎不可能与sparkapi。有没有其他方法可以实现这种功能?我正在考虑实现重复的交互式查询来实现这一点,但这太慢了。
fykwrbwg1#
统计总量(平均值、方差)实际上是关联的,可以在线计算。请看这里的一个很好的数字方法来做这件事。关于参数的数量,记住你在参数中输入的类型是你自己选择的。可以使用元组在其中一个中嵌套多个参数。最后,您还可以将有状态信息与updatestatebykey之类的东西一起使用。
1条答案
按热度按时间fykwrbwg1#
统计总量(平均值、方差)实际上是关联的,可以在线计算。请看这里的一个很好的数字方法来做这件事。
关于参数的数量,记住你在参数中输入的类型是你自己选择的。可以使用元组在其中一个中嵌套多个参数。
最后,您还可以将有状态信息与updatestatebykey之类的东西一起使用。