我有一个hadoop集群,有3个节点和12gb的数据/1.5mid记录。我知道pig可以在本地模式(用于开发目的)和mapreduce模式下运行。
对于一个小的研究项目,我比较了本地模式和mapreduce模式下运行清管器的处理时间。在进行性能测量时,本地模式下的处理时间要比mapreduce模式下快得多(我的代码包括使用jsonloader和模式加载数据文件、过滤和转储结果。)
当map reduce模式比local模式快时,是否有经验法则?
谢谢您!
我有一个hadoop集群,有3个节点和12gb的数据/1.5mid记录。我知道pig可以在本地模式(用于开发目的)和mapreduce模式下运行。
对于一个小的研究项目,我比较了本地模式和mapreduce模式下运行清管器的处理时间。在进行性能测量时,本地模式下的处理时间要比mapreduce模式下快得多(我的代码包括使用jsonloader和模式加载数据文件、过滤和转储结果。)
当map reduce模式比local模式快时,是否有经验法则?
谢谢您!
1条答案
按热度按时间c3frrgcw1#
不清楚您是如何调整Yarn簇以适应工作负载的,也不清楚您实际读取的文件有多大。
一般来说,假设pig可以自己进行多个处理,那么12gb的数据不足以保证hadoop/mapreduce的使用。
但是,如果文件在datanodes之间分割,并且您已经为这3台机器中的每台机器分配了足够的资源,那么作业的完成速度应该比只完成一台机器要快。
您甚至可以通过使用pig-on-tez或spark引擎进一步增强运行时。