apachespark流媒体中的java非关联聚合

dphi5xsq 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(263)

我试图在apachespark streaming上用java构建一个实用层，用户可以在一段时间内（使用spark中的窗口函数）聚合数据，但似乎所有可用的选项都需要关联函数（使用两个参数）。然而，对于一些相当常见的用例，如平均温度传感器值超过一小时，等等，似乎不可能与sparkapi。
有没有其他方法可以实现这种功能？我正在考虑实现重复的交互式查询来实现这一点，但这太慢了。

Java hadoop apache-spark spark-streaming

来源：https://stackoverflow.com/questions/28115374/non-associative-aggregations-in-apache-spark-streaming

1条答案

按热度按时间

统计总量（平均值、方差）实际上是关联的，可以在线计算。请看这里的一个很好的数字方法来做这件事。
关于参数的数量，记住你在参数中输入的类型是你自己选择的。可以使用元组在其中一个中嵌套多个参数。
最后，您还可以将有状态信息与updatestatebykey之类的东西一起使用。

赞(0）回复(0）举报 2021-06-04

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 5个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 5个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 5个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 5个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 5个月前