在什么条件下(如果有的话),在hadoop mapreducer的代码中使用java8并行流有意义吗?
这个问题的前提是,观察到每个Map键只创建了一个reducer示例,并且假设每个reducer示例只分配给一个线程。
因此,如果任何特定Map键的Map值集足够大,则可以通过引入减速器内并行性(除了框架已经提供的减速器间并行性之外)来改进作业的运行时,这是合理的。
然而,我不确定其他因素在实践中会如何影响这种行为,因此这个结论是否具有足够的普遍性,是否具有实用性,或者现实世界的条件是否使它过于依赖于其他一些特定的条件而无法实际使用(例如,队列中其他作业的数量与集群中处理器的数量之间的交互)。
注意:由于我是一个学生,我没有一个现成的集群来测试自己。
暂无答案!
目前还没有任何答案,快来回答吧!