我不明白s3和ad emrf之间的细微差别。我们是否应该将emrfs视为一个库和api的集合,它们允许从hadoop应用程序向s3进行写/读操作,还是其他什么?而这份官方文件也帮不上忙。
cvxl0en21#
其主要优点是emrfs的一致性。它内部使用dynamo db来保持一致性。
kkbh8khc2#
emrfs是一个实现hadoops文件系统api的库。emrfs使s3看起来像hdfs或本地文件系统。然后,hadoop生态系统中的许多应用程序(如spark和hive)都会使用它。例如,这就是如何使用emrfs读取spark中的s3
val df = spark.read.parquet("S3://s3-bucket/path/to/folder/") df.write.csv("s3://s3-bucket/path/to/output/")
2条答案
按热度按时间cvxl0en21#
其主要优点是emrfs的一致性。它内部使用dynamo db来保持一致性。
kkbh8khc2#
emrfs是一个实现hadoops文件系统api的库。emrfs使s3看起来像hdfs或本地文件系统。然后,hadoop生态系统中的许多应用程序(如spark和hive)都会使用它。例如,这就是如何使用emrfs读取spark中的s3