hadoop生态系统中是否有一个工具可以真正知道是否有新数据添加到hdfs文件系统中?
实际上,我想从外部数据库远程执行一个sqoop导入作业(没有合并,只有新表)。然后,当这些数据写入hdfs时,它将执行一个spark脚本,该脚本将处理新添加的数据并执行一些操作。
hadoop中有没有做这种工作的特性?
我完全可以在sqoop导入工作完成后执行spark脚本,但是我想知道是否存在这样的特性,并且还没有找到任何特性。
提前谢谢。
hadoop生态系统中是否有一个工具可以真正知道是否有新数据添加到hdfs文件系统中?
实际上,我想从外部数据库远程执行一个sqoop导入作业(没有合并,只有新表)。然后,当这些数据写入hdfs时,它将执行一个spark脚本,该脚本将处理新添加的数据并执行一些操作。
hadoop中有没有做这种工作的特性?
我完全可以在sqoop导入工作完成后执行spark脚本,但是我想知道是否存在这样的特性,并且还没有找到任何特性。
提前谢谢。
1条答案
按热度按时间vuktfyat1#
对。有。hadoop生态系统中有一个叫做oozie的工作流工具来处理这种场景。
oozie提供了工作流,可以根据固定的时间表或数据可用性触发工作流运行。在您的情况下,它将被视为数据可用性。更多详情请参见oozie doc:oozie doc for coordinator job