在hadoop中并行加载和处理数据

h22fl7wq 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(517)

我使用hadoop来处理bigdata，我首先将数据加载到hdfs，然后执行作业，但它是连续的。有没有可能并行进行呢。例如，在我的集群上同时运行3个作业和2个从其他作业加载数据的进程。
干杯

hadoop mapreduce Jobs scheduling

来源：https://stackoverflow.com/questions/32701005/load-and-process-data-in-parallel-inside-hadoop

2条答案

按热度按时间

7nbnzgx91#

如果集群和作业满足以下条件，则可以在hadoop中并行运行所有作业：
1） hadoop集群应该能够并行运行合理数量的map/reduce任务（取决于作业）（即应该有足够的map/reduce插槽）。
2）如果当前正在运行的作业依赖于通过另一个进程加载的数据，则不能并行运行数据加载和作业。
如果进程满足上述条件，则可以并行处理所有作业。
使用oozie，您可以安排所有进程并行运行。oozie中的fork和join属性允许您完成并行运行的任务。

赞(0）回复(0）举报 2021-05-30

pbgvytdp2#

如果集群有足够的资源并行运行作业，那么是的。但要确保每项工作的工作，不干扰其他工作。就像在执行中的另一个作业应该使用数据的同时加载数据一样，这不会像您预期的那样工作。
如果没有足够的资源，hadoop将根据配置的调度器将作业排队，直到资源可用为止。

赞(0）回复(0）举报 2021-05-29