我有一个小文件的mr代码需要7分钟的15gb单个文件。但是对于37gb的多个文件来说,它花费了太多的时间,并且显示出在1分钟内完成的百分比为1%。请建议我。
lg40wkob1#
这是我的错误,我把自定义记录器在代码中,所以每次当mr运行它是在mr日志文件记录,这就是为什么它需要时间。
nnt7mjpx2#
mapreduce从来不是为低延迟而设计的。mapreduce的思想是,您可以并行处理所有数据。其关键思想是通过并行来减少时间。以wordcount为例。比方说,你想在50gb上运行wordcount。在一台机器上运行这个,可能需要很长时间。并行10台机器意味着每台机器并行5gb。这是一个进步。这就是mapreduce的设计目的。如果您正在寻找一种快速返回结果的技术,并且还可以通过随机读取来实现这一点,请考虑另一种技术。根据您的具体需求,有几种方法可以更好地解决您的问题。
2条答案
按热度按时间lg40wkob1#
这是我的错误,我把自定义记录器在代码中,所以每次当mr运行它是在mr日志文件记录,这就是为什么它需要时间。
nnt7mjpx2#
mapreduce从来不是为低延迟而设计的。mapreduce的思想是,您可以并行处理所有数据。其关键思想是通过并行来减少时间。
以wordcount为例。比方说,你想在50gb上运行wordcount。在一台机器上运行这个,可能需要很长时间。并行10台机器意味着每台机器并行5gb。这是一个进步。这就是mapreduce的设计目的。
如果您正在寻找一种快速返回结果的技术,并且还可以通过随机读取来实现这一点,请考虑另一种技术。根据您的具体需求,有几种方法可以更好地解决您的问题。