amazonemr框架在mapreduce作业中使用之前是否从s3复制数据

laximzn5  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(389)

我注意到,当输入位置是s3中的文件时,在调用emr作业和实际开始mapreduce处理数据之间需要等待很长时间。我的问题是,emr是直接在驻留在本机s3文件系统中的数据上运行,还是将数据复制到已配置ec2机器(在emr集群中)的hdfs集群上,在这种情况下,复制数据将花费大量时间?

vktxenjb

vktxenjb1#

s3是一种存储机制,因此它肯定不能处理数据。因此,在mr作业中进行处理之前,必须将数据复制到ec2节点。

相关问题