hadoop在map reduce中的大数据文件处理

lrpiutwd  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(343)

我试着理解Map是如何减少工作的。所以我知道有一些Map器在几台计算机上并行运行,并创建一个结果集,然后由在几台计算机上并行运行的reducer使用这个结果集来创建预期的数据集。
我的问题是:
一个作业是否在固定数量的文件上运行?因此,在作业开始时,需要处理固定数量的文件来处理和生成一些数据。
如果没有,那么我们如何处理可能来自不同来源(可能是twitter提要)的数据流呢?
如果是,请解释Map缩小如何找出所有Map绘制者何时完成和缩小任务应开始,因为可能没有参考点。

ecfsfe2w

ecfsfe2w1#

答案:
对。基本上一个作业开始、处理文件和结束。永远不要跑。
流处理可以通过storm或类似的技术来处理,但不能仅使用hadoop,因为它是一个批处理系统。您还可以查看hadoopyarn和storm是如何协同工作的。
应该是一个参考点,因为在不同节点中运行的tasktracker会将定期运行的不同任务(Map任务/减少任务)的状态信息发送给jobtracker,jobtracker协调作业运行。

相关问题