hadoop-execute脚本当数据到达hdfs时

stszievb  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(279)

hadoop生态系统中是否有一个工具可以真正知道是否有新数据添加到hdfs文件系统中?
实际上,我想从外部数据库远程执行一个sqoop导入作业(没有合并,只有新表)。然后,当这些数据写入hdfs时,它将执行一个spark脚本,该脚本将处理新添加的数据并执行一些操作。
hadoop中有没有做这种工作的特性?
我完全可以在sqoop导入工作完成后执行spark脚本,但是我想知道是否存在这样的特性,并且还没有找到任何特性。
提前谢谢。

vuktfyat

vuktfyat1#

对。有。hadoop生态系统中有一个叫做oozie的工作流工具来处理这种场景。
oozie提供了工作流,可以根据固定的时间表或数据可用性触发工作流运行。在您的情况下,它将被视为数据可用性。更多详情请参见oozie doc:oozie doc for coordinator job

相关问题