我注意到,当输入位置是s3中的文件时,在调用emr作业和实际开始mapreduce处理数据之间需要等待很长时间。我的问题是,emr是直接在驻留在本机s3文件系统中的数据上运行,还是将数据复制到已配置ec2机器(在emr集群中)的hdfs集群上,在这种情况下,复制数据将花费大量时间?
vktxenjb1#
s3是一种存储机制,因此它肯定不能处理数据。因此,在mr作业中进行处理之前,必须将数据复制到ec2节点。
1条答案
按热度按时间vktxenjb1#
s3是一种存储机制,因此它肯定不能处理数据。因此,在mr作业中进行处理之前,必须将数据复制到ec2节点。