我是mrjob的新手,在amazon emr上运行这个任务时遇到了问题。我会按顺序写的。
我可以在本地机器上运行mrjob。但是,当在/home/ankit/.mrjob.conf和/etc/mrjob.conf中有mrjob.conf时,该作业不会在本地计算机上执行。这是我得到的。https://s3-ap-southeast-1.amazonaws.com/imagna.sample/local.txt
文档中“mr_conf指定的位置”中的mrjob_conf是什么?
“base\u tmp\u directory”有什么用?另外,我是否需要在开始作业之前上传s3中的输入数据,或者在开始执行时从本地计算机加载?
如果我使用numpy、scikit等库,是否需要进行一些引导?如果是,怎么做?
这是我在emr上执行运行作业的命令时得到的结果https://s3-ap-southeast-1.amazonaws.com/imagna.sample/emr.txt
有什么解决办法吗?
谢谢。
1条答案
按热度按时间mkshixfv1#
您的url无效(我收到“拒绝访问”错误)。
mrjob.conf
是配置文件。它可以位于多个位置,请参见http://pythonhosted.org/mrjob/configs-conf.html只需在命令行上指定输入文件的路径,就可以使用本地计算机的输入数据。mrjob将为您上传数据到s3。如果指定s3://。。。url,mrjob将使用该s3路径上的数据。
要使用非标准软件包,请参阅http://pythonhosted.org/mrjob/writing-and-running.html#custom-python包
您的url无效(我收到“拒绝访问”错误)。