amazonweb服务emr文件系统

bogh5gae  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(351)

我正在尝试在aws emr群集上运行作业。我遇到的问题如下:
aws java.io.ioexception:scheme:hdfs没有文件系统
我不知道我的问题到底在哪里(在我的javajar作业或作业的配置中)
在我的s3桶我做一个文件夹(输入),并在其中我把我的数据一堆文件。然后在参数im中给出输入文件夹的路径,该路径与fileinputpath.getinputpath(args[0])使用的路径相同。
我的问题是-首先,该作业将抓取输入文件夹中的所有文件并处理它们,还是我必须提供每个文件的所有路径?
第二个问题-如何解决上述异常?
谢谢

pepwfjgg

pepwfjgg1#

将输入文件保存在s3中。e、 g.s3://mybucket/input/将要按下的所有文件保存在mybucket下的input文件夹中。
在你的Map中,减少使用代码如下

FileInputFormat.addInputPath(job,"s3n://mybucket/input/")

这将自动处理输入文件夹下的所有文件。

相关问题