我需要在hadoop集群上执行以下工作流。
新文件被添加到hdfs目录中,/export/(一天多次)
文件有两种格式:\u a.csv和\u b.csv
将所有*\u a.csv复制到/hive/dumptable\u a/
将所有*\u b.csv复制到/hive/dumptable\u b/
运行配置单元插入查询以从转储表\u a加载分区表a
运行配置单元插入查询以从转储表\u b加载分区表b
从/hive/dumptable\ a/和/hive/dumptable\ b删除数据/
是否可以将oozie设置为监视/导出/新文件,并启动工作流?如果oozie不能做到这一点,或者它不是正确的工具,那么最好的选择是什么?
1条答案
按热度按时间xesrikrc1#
是的,正如rahul提到的,请看oozie基于文件的协调器,在那里您可以找到一个关于如何使用
<datasets>
以及<input-events>
元素。或者您可以在这里查看oozie文档中的一个示例