我有一张Hive桌。现在我需要写一个工作流程,每天的工作将搜索一个位置的文件-
/data/data_YYYY-mm-dd.csv
like
/data/data_2015-07-07.csv
/data/data_2015-07-08.csv
...
因此,每天的工作流都会自动选择文件名并将数据加载到配置单元表(mytable)中。
我正在编写如下所示的加载脚本-将data inpath“/data/${filepath}”overwrite加载到表mytable中。
现在,在运行与普通配置单元作业相同的任务时,我可以将文件路径设置为data亶2015-07-07.csv,但如何在oozie coordinator中进行设置,以便它自动选择名为date的路径。
我试图从oozie coordinator设置工作流参数-
clicklog_${YYYY}-{MONTH}-{DAY}.csv
1条答案
按热度按时间ntjbwcob1#
在检查了oozie协调器文档之后,我找到了解决方案。它简单而直接,不管您已经在hive工作流中添加了什么配置,都将被忽略,oozie协调器将填充它们-
所以我的Hive工作流程是-
现在我在oozie coordinator中安排了相同的工作流-
只需设置filepath参数-
然后我用一个crone作业每60分钟运行一次(/60***)来检查上面的模式文件是否可用