s3和emrfs有什么区别?

e0bqpujr  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(407)

我不明白s3和ad emrf之间的细微差别。我们是否应该将emrfs视为一个库和api的集合,它们允许从hadoop应用程序向s3进行写/读操作,还是其他什么?而这份官方文件也帮不上忙。

cvxl0en2

cvxl0en21#

其主要优点是emrfs的一致性。它内部使用dynamo db来保持一致性。

kkbh8khc

kkbh8khc2#

emrfs是一个实现hadoops文件系统api的库。emrfs使s3看起来像hdfs或本地文件系统。然后,hadoop生态系统中的许多应用程序(如spark和hive)都会使用它。例如,这就是如何使用emrfs读取spark中的s3

val df = spark.read.parquet("S3://s3-bucket/path/to/folder/")
df.write.csv("s3://s3-bucket/path/to/output/")

相关问题