spark-groupbykey优于reducebykey的用例是什么

uplii1fm  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(413)

groupbykey应该被避免,并且更喜欢reducebykey来发送优化网络带宽,这是有充分理由的。
https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/prefer_reducebykey_over_groupbykey.html
有没有任何情况下groupby是真正需要的,而reducebykey是无法解决的

6vl6ewon

6vl6ewon1#

groupby更可取的一些用例。
如果“分组”项不应以任何形式聚合,并且应按原样发送,则在spark中将groupbykey替换为reducebykey
在不相关的运算中。。不能使用reducebykey。唯一的选项是groupbykey

相关问题