减少Spark或燧石中的Spark或燧石

57hvy0tb 于 2021-06-24 发布在 Flink

关注(0)|答案(1)|浏览(439)

reduce ：函数获取累计值和下一个值以查找某些聚合。 reduceByKey ：也与指定键的操作相同。 reduceGroups ：是对分组数据应用指定的操作。
我不知道这些操作是如何管理内存的。例如，在使用 reduce 功能（例如所有加载到内存的数据？）？我想知道如何为reduce操作管理数据。我还想知道，根据数据管理，这些操作之间有什么区别。

mapreduce apache-spark apache-spark-sql apache-flink

来源：https://stackoverflow.com/questions/58154979/reduce-reducebykey-reducegroups-in-spark-or-flink

1条答案

按热度按时间

i2loujxw1#

reduce是spark中最便宜的操作之一，因为它所做的唯一事情实际上是将相似的数据分组到同一个节点上。reduce操作的唯一代价是读取元组并决定将元组分组到何处。这意味着 reduce ，与 reduceByKey 或者 reduceGroups 因为spark不知道如何进行分组和搜索元组之间的关联，所以它的成本更高。
如果元组不满足任何要求，reduce也可以忽略它。

赞(0）回复(0）举报 2021-06-24

我来回答

减少Spark或燧石中的Spark或燧石

1条答案

相关问题

热门标签

最新问答