用hadoop处理非常小的文件

zpjtge22 于 2021-06-04 发布在 Hadoop

关注(0)|答案(2)|浏览(263)

我有一个关于使用hadoop处理一个小文件的问题。我的文件只有大约1000条记录，但我希望这些记录大致均匀地分布在节点之间。有办法吗？我是hadoop的新手，到目前为止，似乎所有的执行都在一个节点上进行，而不是同时在多个节点上进行。让我知道我的问题是否有意义或者我是否需要澄清任何事情。正如我所说，我对hadoop非常陌生，但我希望得到一些澄清。谢谢。

来源：https://stackoverflow.com/questions/14824802/processing-very-small-file-with-hadoop

2条答案

按热度按时间

使用nlineinputformat并指定每个Map器要处理的记录数。这样，单个块中的记录将由多个Map器处理。

赞(0）回复(0）举报 2021-06-04

另一个选项是将一个输入文件拆分为多个输入文件（在一个输入路径目录中）。然后，这些输入文件中的每一个都将能够分布在hdfs中，Map操作将在拥有这些输入拆分的工作机上发生。

赞(0）回复(0）举报 2021-06-04

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 5个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 5个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 5个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 5个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 5个月前