在hadoop中并行加载和处理数据

h22fl7wq  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(517)

我使用hadoop来处理bigdata,我首先将数据加载到hdfs,然后执行作业,但它是连续的。有没有可能并行进行呢。例如,在我的集群上同时运行3个作业和2个从其他作业加载数据的进程。
干杯

7nbnzgx9

7nbnzgx91#

如果集群和作业满足以下条件,则可以在hadoop中并行运行所有作业:
1) hadoop集群应该能够并行运行合理数量的map/reduce任务(取决于作业)(即应该有足够的map/reduce插槽)。
2) 如果当前正在运行的作业依赖于通过另一个进程加载的数据,则不能并行运行数据加载和作业。
如果进程满足上述条件,则可以并行处理所有作业。
使用oozie,您可以安排所有进程并行运行。oozie中的fork和join属性允许您完成并行运行的任务。

pbgvytdp

pbgvytdp2#

如果集群有足够的资源并行运行作业,那么是的。但要确保每项工作的工作,不干扰其他工作。就像在执行中的另一个作业应该使用数据的同时加载数据一样,这不会像您预期的那样工作。
如果没有足够的资源,hadoop将根据配置的调度器将作业排队,直到资源可用为止。

相关问题