hadoop mapper reducer占用了很多时间

af7jpaap  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(280)

我有一个小文件的mr代码需要7分钟的15gb单个文件。但是对于37gb的多个文件来说,它花费了太多的时间,并且显示出在1分钟内完成的百分比为1%。请建议我。

lg40wkob

lg40wkob1#

这是我的错误,我把自定义记录器在代码中,所以每次当mr运行它是在mr日志文件记录,这就是为什么它需要时间。

nnt7mjpx

nnt7mjpx2#

mapreduce从来不是为低延迟而设计的。mapreduce的思想是,您可以并行处理所有数据。其关键思想是通过并行来减少时间。
以wordcount为例。比方说,你想在50gb上运行wordcount。在一台机器上运行这个,可能需要很长时间。并行10台机器意味着每台机器并行5gb。这是一个进步。这就是mapreduce的设计目的。
如果您正在寻找一种快速返回结果的技术,并且还可以通过随机读取来实现这一点,请考虑另一种技术。根据您的具体需求,有几种方法可以更好地解决您的问题。

相关问题