我正在尝试用oozie加载hive脚本中的text/csv文件,并每天安排它。文本文件位于本地unix文件系统中。在oozie工作流中执行配置单元脚本之前,我需要将这些文本文件放到hdfs中。在实时集群中,我们不知道作业将在哪个节点上运行,它将在集群中的任意一个节点上随机运行。有谁能给我提供解决办法吗。提前谢谢。
piah890a1#
我不知道你想做什么。在我看来,这是行不通的:oozie服务器只能访问hdfs文件(与hive相同)你的数据在某个地方的本地文件系统上那你为什么不事先把文件加载到hdfs中呢?传输可以在文件可用时触发(上游作业中的后处理操作),也可以在固定时间触发(使用linux cron)。如果您的namenode上的webhdfs服务是活动的,那么您甚至不需要linux上的hadoop库—只需使用curl和http上传。
1条答案
按热度按时间piah890a1#
我不知道你想做什么。
在我看来,这是行不通的:
oozie服务器只能访问hdfs文件(与hive相同)
你的数据在某个地方的本地文件系统上
那你为什么不事先把文件加载到hdfs中呢?传输可以在文件可用时触发(上游作业中的后处理操作),也可以在固定时间触发(使用linux cron)。
如果您的namenode上的webhdfs服务是活动的,那么您甚至不需要linux上的hadoop库—只需使用curl和http上传。