如果我在ec2(或kubernetes)上运行spark,我可以用s3/emrfs代替hdfs吗?这个产品准备好了吗?它使用并行来读取/处理s3中的数据吗?先谢了
cwdobuhd1#
不,EMRFS仅适用于EMR,这是使S3看起来像HDFS的一部分的简单方法。对于EC2,您可以连接到S3,但这没有EMR那么容易。S3与EC2没有紧密耦合。是的,应用了并行,但并不根据MR数据位置、工作者和数据节点(即MR数据位置、工作者和数据节点)。
vjhs03f72#
EMR使用具有专有功能“emrfs”的封闭源代码S3连接器。您无法查看源代码,无法从任何其他人处获得支持 ,并且只有在运行emr 时才能使用它。对于独立应用:s3a连接器很棒,但不能完全替代HDFS
2条答案
按热度按时间cwdobuhd1#
不,EMRFS仅适用于EMR,这是使S3看起来像HDFS的一部分的简单方法。对于EC2,您可以连接到S3,但这没有EMR那么容易。S3与EC2没有紧密耦合。是的,应用了并行,但并不根据MR数据位置、工作者和数据节点(即MR数据位置、工作者和数据节点)。
vjhs03f72#
EMR使用具有专有功能“emrfs”的封闭源代码S3连接器。您无法查看源代码,无法从任何其他人处获得支持 ,并且只有在运行emr 时才能使用它。对于独立应用:s3a连接器很棒,但不能完全替代HDFS