这是我在hadoop中的第一个实现。我正在尝试在map reduce中实现我的概率数据集算法。在我的数据集中,最后一列将有一些id(数据集中唯一id的数量等于集群中的节点数量)。我必须根据这个列值来划分数据集,并且集群中的每个节点都应该处理每组记录。
例如,如果集群中有三个节点,对于下面的数据集,一个节点应该处理id=1的所有记录,另一个节点处理id=2的记录,另一个节点处理id=3的记录
name time dept id
--------------------
b1 2:00pm z1 1
b2 3:00pm z2 2
c1 4:00pm y2 1
b3 3:00pm z3 3
c4 4:00pm x2 2
我的map函数应该将每个分割作为一个输入,并在每个节点中并行处理它。
我只是想了解,在hadoop中哪种方法是可行的。输入这个数据集作为我的map函数的输入,并通过map传递一个额外的参数来根据id值分割数据。或者预先将数据拆分为“n”(节点数)子集并将其加载到节点中,如果这是正确的方法,那么如何根据不同节点中的值和负载来拆分数据。因为,我从阅读资料中了解到的是,hadoop根据指定的大小将数据分割成块。如何在加载时指定特定条件。总而言之,我正在用python编写我的程序。
有人请指点一下。谢谢
2条答案
按热度按时间bz4sfanl1#
对您来说,最简单的事情可能是让Map器以id作为键输出数据,这将保证一个reducer将获得特定id的所有记录,然后在reducer阶段进行处理。
例如,
输入数据:
Map程序代码:
Map输出:
减速器1输入:
减速器2输入:
减速器3输入:
减速机代码:
请注意,这样一个reducer可能会获得多个键,但数据将被排序,您可以使用mapred.reduce.tasks选项控制reducer的数量。
编辑如果你想收集你的数据在减速器每键你可以这样做(不确定它会运行,但你得到的想法)
如果您不担心在reducer步骤中内存不足,可以将代码简化为:
pod7payv2#
如果我理解您的问题,最好的方法是将数据集加载到配置单元表中,然后用python编写udf。在那之后,像这样做:
这看起来像是reduce阶段,所以在启动查询之前可能需要这个
如何创建自定义自定义项:
Hive插件
创建函数