如何划分map reduce任务?

eit6fx6z  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(352)

我有一个包含200列的表,其中我需要列表中提到的大约50列,以及根据“timestamp”列列出的过去24个月的行。
我搞不清楚什么在mapper下,什么在reducer下?
因为这只是转换,它是否只有Map器阶段,或者对过去24个月的行进行过滤将在reducer下进行?我不确定这是否正是利用什么Map减少了。
我正在使用python和hadoop流媒体。

f4t66c6m

f4t66c6m1#

因此,您有一个包含200列(比如t)的表,一个单独的条目列表(比如l)从t中选取,最后24小时(从t中的时间戳)。
mapreduce,mapper会按顺序给出t的条目。在Map器进入map()之前,即在setup()中,将要从l中读取的代码块放到方便的地方(使用一个可行的数据结构来保存数据列表)。现在,您的代码应该包含两个检查/条件1)如果t中的条目包含/匹配l。如果是,则检查2)数据是否在24小时范围内。
完成。你的产出是你所期望的。不,这里需要减速器,至少要做这么多。
快乐Map绘制。

相关问题