HDFS 在ec2上托管的apache spark中使用AWS EMRFS

41zrol4v  于 2022-12-09  发布在  HDFS
关注(0)|答案(2)|浏览(200)

如果我在ec2(或kubernetes)上运行spark,我可以用s3/emrfs代替hdfs吗?这个产品准备好了吗?它使用并行来读取/处理s3中的数据吗?
先谢了

cwdobuhd

cwdobuhd1#

不,EMRFS仅适用于EMR,这是使S3看起来像HDFS的一部分的简单方法。对于EC2,您可以连接到S3,但这没有EMR那么容易。S3与EC2没有紧密耦合。是的,应用了并行,但并不根据MR数据位置、工作者和数据节点(即MR数据位置、工作者和数据节点)。

vjhs03f7

vjhs03f72#

EMR使用具有专有功能“emrfs”的封闭源代码S3连接器。您无法查看源代码,无法从任何其他人处获得支持 ,并且只有在运行emr 时才能使用它。对于独立应用:s3a连接器很棒,但不能完全替代HDFS

相关问题