groupbykey应该被避免,并且更喜欢reducebykey来发送优化网络带宽,这是有充分理由的。
https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/prefer_reducebykey_over_groupbykey.html
有没有任何情况下groupby是真正需要的,而reducebykey是无法解决的
groupbykey应该被避免,并且更喜欢reducebykey来发送优化网络带宽,这是有充分理由的。
https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/prefer_reducebykey_over_groupbykey.html
有没有任何情况下groupby是真正需要的,而reducebykey是无法解决的
1条答案
按热度按时间6vl6ewon1#
groupby更可取的一些用例。
如果“分组”项不应以任何形式聚合,并且应按原样发送,则在spark中将groupbykey替换为reducebykey
在不相关的运算中。。不能使用reducebykey。唯一的选项是groupbykey