spark-groupbykey优于reducebykey的用例是什么

uplii1fm 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(412)

groupbykey应该被避免，并且更喜欢reducebykey来发送优化网络带宽，这是有充分理由的。
https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/prefer_reducebykey_over_groupbykey.html
有没有任何情况下groupby是真正需要的，而reducebykey是无法解决的

rdd apache-spark

来源：https://stackoverflow.com/questions/63157755/spark-what-are-the-usecase-for-groupbykey-over-reducebykey

1条答案

按热度按时间

groupby更可取的一些用例。
如果“分组”项不应以任何形式聚合，并且应按原样发送，则在spark中将groupbykey替换为reducebykey
在不相关的运算中。。不能使用reducebykey。唯一的选项是groupbykey

赞(0）回复(0）举报 2021-05-27

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前