在amazonemr上使用hadoop流处理整个文件

7kqas0il 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(309)

我在amazons3上有一个满是gzip文本文件的目录，我正在尝试使用amazonelasticmapreduce上的hadoop流来分别对每个文件应用一个函数（特别是解析一个多行头）。默认的hadoop流“每行都是记录”格式在这里不起作用。
我的尝试是将-input设置为列出每个gzip文件的s3路径的文本文件，然后在Map器中使用“hadoop fs-get”或“hadoop fs-copytolocal”将文件复制到工作节点，然后在整个文件上运行函数。但是，这样做会导致步骤失败，并出现“permission denied”错误。
我猜这与dfs.permissions.enabled变量有关，但我没有任何运气通过hadoop安装引导接口传递这些变量。
有人知道是什么导致了错误以及如何修复它吗？或者，如果有其他方法可以使用emr（或其他amazon工具）将函数应用于整个文件，我也愿意使用这些方法。谢谢！

hadoop amazon-s3 amazon-web-services hadoop-streaming elastic-map-reduce

来源：https://stackoverflow.com/questions/25211863/process-entire-files-using-hadoop-streaming-on-amazon-emr