我有压缩文件,它包含8个大小为5-10kb的xml文件。我把这些数据用于测试。我只写了一个map-only程序来解压压缩文件。我 wrote program in MR2 and using Hadoop 2.7.1 in psuedo distributed mode
. 我使用 sbin/start-dfs.sh
命令。我能够在几秒钟内在文件系统中看到解压缩的输出,但处理将持续5-6分钟。我不知道为什么?
mr程序解压文件到这个阶段,我可以查看/下载这些文件。
无法理解我的mapreduce程序在这里做什么。我 am using MR2 API in my code and why it is using MR1 API(mapred) here?
当我有128mb的压缩文件,它在5-10分钟内解压,其余时间它忙于做一些其他任务时,情况会变得更糟。
我得到的性能是不可接受的,我需要理解hadoop在第二个屏幕截图中的处理功能。
请帮助我了解是否是安装问题,我的程序问题或任何其他问题?
1条答案
按热度按时间dw1jzc5e1#
这是一个配置问题,我正在解决这个问题的变化
mapred-site.xml
文件。