需要更好地解释mapreduce的通信成本模型,而不是mmds

lf3rwulv  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(177)

我正在看一本mmds的书,里面有一个同名的在线mooc。我在理解主题2.5中提到的通信成本模型和连接操作计算方面遇到了困难,我很惊讶这本书的组织得如此糟糕,因为mooc在课程结束时的“mapreduce的高级主题/计算复杂性”中涵盖了相同的主题。
有一个练习题(例子根本没用)是这样的:
我们希望将join r(a,b)|><| s(b,c)|><| t(a,c)作为单个mapreduce进程,以最小化通信开销的方式。我们将使用512个reduce任务,关系r、s和t的大小分别为220=1048576、217=131072和214=16384。计算每个属性a、b和c要散列到的bucket数。然后,确定map函数复制r、s和t的每个元组的次数。
你能带我过去吗。我不知道他是怎么从简单的r+s+t跳到拉格朗日恒等式的,而没有考虑中间步骤。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题