如何将amazonec2、s3和hdfs联系起来?

x759pob2  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(352)

我是在一个伪分布式模式下学习hadoop的,所以不太了解集群。所以当我浏览集群时,我发现s3是一个数据存储设备。而ec2是一种计算服务,但无法理解它的真正用途。我的hdfs是否可以在s3中使用。如果是的话,当我学习hive时,我遇到了将数据从hdfs移动到s3的情况,这被称为归档逻辑。

hadoop distcp /data/log_messages/2011/12/02 s3n://ourbucket/logs/2011/12/02

我的hdfs是在s3上登陆的,那么它有什么好处呢?这可能是愚蠢的,但如果有人能给我一个概述,将有助于我。

r6vfmomb

r6vfmomb1#

s3只是存储,不允许计算。您可以将s3看作一个存储数据的bucket&您可以使用那里的api从中检索数据。如果您使用的是aws/ec2,那么hadoop集群将位于aws/ec2上,它与s3不同。hdfs只是hadoop中的一个文件系统,用于最大化输入/输出性能。
您共享的命令是分布式副本。它将把数据从hdfs复制到s3。简而言之,在hadoop环境中,ec2将hdfs作为默认文件系统,您可以将归档数据或未使用的数据移动到s3,因为s3存储比ec2机器便宜。

相关问题