我正在通过控制台启动一个emr集群。控制台自动添加 -files s3://jmilloy/milp_mapper.py 在arguments字段中,这是我为Map器提供的位置。我找不到钥匙了 -file 选项记录在任何地方。它有什么作用?为什么会自动添加?如果我把它取下来怎么办?我可以把s3中脚本需要的其他文件放在那里吗?
-files s3://jmilloy/milp_mapper.py
-file
byqmnocz1#
简短回答: -files 不是emr标志,而是将文件添加到分布式缓存的方法。长版本:hadoop使用genricoptionsparser来解析命令行选项。当您使用python编写Map器或还原器时,这意味着hadoop正在使用流api来运行作业。因此,在运行流作业时,必须使用 -files 命令行选项,一旦这样做,hadoop将把文件复制到hdfs,然后将它们复制到Map器和还原器,以便它们可以初始化python外部进程。如果不使用 -files 这项工作将失败。
-files
1条答案
按热度按时间byqmnocz1#
简短回答:
-files
不是emr标志,而是将文件添加到分布式缓存的方法。长版本:
hadoop使用genricoptionsparser来解析命令行选项。当您使用python编写Map器或还原器时,这意味着hadoop正在使用流api来运行作业。因此,在运行流作业时,必须使用
-files
命令行选项,一旦这样做,hadoop将把文件复制到hdfs,然后将它们复制到Map器和还原器,以便它们可以初始化python外部进程。如果不使用
-files
这项工作将失败。