hadoop进程warc文件

zte4gxcn 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(430)

我有一个关于hadoop文件分割和多Map器的一般性问题。我是hadoop的新手，正在尝试掌握如何设置以获得最佳性能。我的项目目前正在处理gziped的warc文件。
使用当前的inputfileformat，文件将被发送到一个Map器，并且不会被拆分。我知道这是加密文件的正确行为。在运行作业之前，将文件解密作为一个中间步骤，以允许拆分作业，从而使用更多Map程序，这对性能有好处吗？有可能吗？拥有更多的Map器会产生更多的延迟开销吗？还是拥有一个Map器更好？谢谢你的帮助。

Java hadoop mapreduce common-crawl elastic-map-reduce

来源：https://stackoverflow.com/questions/40326258/hadoop-process-warc-files

1条答案

按热度按时间

irtuqstp1#

尽管warc文件是gzip文件，但它们是可拆分的（参见best splittable compression for hadoop input=bz2？），因为每个记录都有自己的deflate块。但记录偏移量必须事先知道。
但这真的有必要吗？常见的爬网warc文件的大小都在1gb左右，应该在最长15分钟内正常处理。考虑到启动Map任务的开销，Map程序运行的时间是合理的。例如，Map程序也可以处理一些warc文件，但重要的是，您必须对输入warc文件列表进行足够的拆分，以便所有节点都在运行任务。在hadoop上处理单个warc文件将意味着大量不必要的开销。

赞(0）回复(0）举报 2021-06-02

我来回答

hadoop进程warc文件

1条答案

相关问题

热门标签

最新问答