我试着理解Map是如何减少工作的。所以我知道有一些Map器在几台计算机上并行运行,并创建一个结果集,然后由在几台计算机上并行运行的reducer使用这个结果集来创建预期的数据集。我的问题是:一个作业是否在固定数量的文件上运行?因此,在作业开始时,需要处理固定数量的文件来处理和生成一些数据。如果没有,那么我们如何处理可能来自不同来源(可能是twitter提要)的数据流呢?如果是,请解释Map缩小如何找出所有Map绘制者何时完成和缩小任务应开始,因为可能没有参考点。
ecfsfe2w1#
答案:对。基本上一个作业开始、处理文件和结束。永远不要跑。流处理可以通过storm或类似的技术来处理,但不能仅使用hadoop,因为它是一个批处理系统。您还可以查看hadoopyarn和storm是如何协同工作的。应该是一个参考点,因为在不同节点中运行的tasktracker会将定期运行的不同任务(Map任务/减少任务)的状态信息发送给jobtracker,jobtracker协调作业运行。
1条答案
按热度按时间ecfsfe2w1#
答案:
对。基本上一个作业开始、处理文件和结束。永远不要跑。
流处理可以通过storm或类似的技术来处理,但不能仅使用hadoop,因为它是一个批处理系统。您还可以查看hadoopyarn和storm是如何协同工作的。
应该是一个参考点,因为在不同节点中运行的tasktracker会将定期运行的不同任务(Map任务/减少任务)的状态信息发送给jobtracker,jobtracker协调作业运行。