我开发了一个pyspark脚本,通过使用apacheoozie工作流(使用spark动作)和另一个工作流(使用shell动作)来自动化数据处理。在pyspark脚本中,我尝试执行以下操作:
os.system('hdfs dfs -e "$(hdfs dfs -cat /full_path_in_my_hdfs/myquery.hql)"')
myquery.hql文件只创建一个小的配置单元表,一点也不复杂。我已经提供了在oozie上运行pyspark所需的所有配置和jdbc设置。在oozie上执行这个pyspark的状态是成功的,但是根本没有创建表。这就像oozie将作业提交给hadoop/yarn并尝试执行它,但没有返回任何输出,就好像它忽略了它并跳转到第二个命令并返回一个成功的作业一样。
我在没有oozie的shell上测试了上面的命令和脚本,它工作得很好,表也被创建了,只是当我试图在oozie中自动执行该作业时,没有得到任何输出,oozie作业成功完成了?!?!?
如果有人以前遇到过类似的东西,并且愿意分享他/她的方法或对此类用例的任何建议,我将不胜感激。
谢谢大家
暂无答案!
目前还没有任何答案,快来回答吧!