我有一个包含200列的表,其中我需要列表中提到的大约50列,以及根据“timestamp”列列出的过去24个月的行。我搞不清楚什么在mapper下,什么在reducer下?因为这只是转换,它是否只有Map器阶段,或者对过去24个月的行进行过滤将在reducer下进行?我不确定这是否正是利用什么Map减少了。我正在使用python和hadoop流媒体。
f4t66c6m1#
因此,您有一个包含200列(比如t)的表,一个单独的条目列表(比如l)从t中选取,最后24小时(从t中的时间戳)。mapreduce,mapper会按顺序给出t的条目。在Map器进入map()之前,即在setup()中,将要从l中读取的代码块放到方便的地方(使用一个可行的数据结构来保存数据列表)。现在,您的代码应该包含两个检查/条件1)如果t中的条目包含/匹配l。如果是,则检查2)数据是否在24小时范围内。完成。你的产出是你所期望的。不,这里需要减速器,至少要做这么多。快乐Map绘制。
1条答案
按热度按时间f4t66c6m1#
因此,您有一个包含200列(比如t)的表,一个单独的条目列表(比如l)从t中选取,最后24小时(从t中的时间戳)。
mapreduce,mapper会按顺序给出t的条目。在Map器进入map()之前,即在setup()中,将要从l中读取的代码块放到方便的地方(使用一个可行的数据结构来保存数据列表)。现在,您的代码应该包含两个检查/条件1)如果t中的条目包含/匹配l。如果是,则检查2)数据是否在24小时范围内。
完成。你的产出是你所期望的。不,这里需要减速器,至少要做这么多。
快乐Map绘制。