amazonemr作业，输入许多json文件

fkvaft9z 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(349)

我正在用python编写一个hadoop流应用程序，在emr上运行。emr作业的输入是s3 bucket中的文件目录，每个文件都是包含单个json对象的json文件。我希望Map程序对每个json文件进行操作，一次一个，并生成（键、值）对，如下所示：
Map：
{'name'：'foo'，'request'：'bar'}->（'name'，{'request'：'bar'}）
减少：
（'name'，[{'request'：'bar'}，{'request'：'baz'}]）->{'name'：'foo'，'request'：['bar'，'baz']}
如果我想处理的所有json对象都写在一个文件中作为一行，那么这似乎是可行的，尽管事实并非如此；每个.json文件中都有多个换行符。有没有为这种操作量身定做的输入格式？请给我一些指导。谢谢！

hadoop JSON python amazon-emr amazon-s3

来源：https://stackoverflow.com/questions/24911972/amazon-emr-job-with-many-json-files-as-input