用hadoop处理非常小的文件

zpjtge22  于 2021-06-04  发布在  Hadoop
关注(0)|答案(2)|浏览(263)

我有一个关于使用hadoop处理一个小文件的问题。我的文件只有大约1000条记录,但我希望这些记录大致均匀地分布在节点之间。有办法吗?我是hadoop的新手,到目前为止,似乎所有的执行都在一个节点上进行,而不是同时在多个节点上进行。让我知道我的问题是否有意义或者我是否需要澄清任何事情。正如我所说,我对hadoop非常陌生,但我希望得到一些澄清。谢谢。

2fjabf4q

2fjabf4q1#

使用nlineinputformat并指定每个Map器要处理的记录数。这样,单个块中的记录将由多个Map器处理。

u3r8eeie

u3r8eeie2#

另一个选项是将一个输入文件拆分为多个输入文件(在一个输入路径目录中)。然后,这些输入文件中的每一个都将能够分布在hdfs中,Map操作将在拥有这些输入拆分的工作机上发生。

相关问题