aws emr的-file参数是什么

44u64gxh  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(323)

我正在通过控制台启动一个emr集群。
控制台自动添加 -files s3://jmilloy/milp_mapper.py 在arguments字段中,这是我为Map器提供的位置。我找不到钥匙了 -file 选项记录在任何地方。它有什么作用?为什么会自动添加?如果我把它取下来怎么办?我可以把s3中脚本需要的其他文件放在那里吗?

byqmnocz

byqmnocz1#

简短回答: -files 不是emr标志,而是将文件添加到分布式缓存的方法。
长版本:
hadoop使用genricoptionsparser来解析命令行选项。当您使用python编写Map器或还原器时,这意味着hadoop正在使用流api来运行作业。因此,在运行流作业时,必须使用 -files 命令行选项,一旦这样做,hadoop将把文件复制到hdfs,然后将它们复制到Map器和还原器,以便它们可以初始化python外部进程。
如果不使用 -files 这项工作将失败。

相关问题