amazon web服务—与使用硬盘存储的服务器相比,aws emr在s3上的性能

7dl7o3gd  于 2021-06-24  发布在  Hive
关注(0)|答案(1)|浏览(611)

我们有来自客户的大约10 tb的数据,这些数据必须使用配置单元进行加载和查询,并创建聚合表,再次需要多次查询。
我打算用 AWS S3 在一个存储桶中存储10 tb数据,并使用 EMR .
这是一个可行的方法还是性能会很差?
可以使用哪些替代方法来加快查询速度?

cmssoen2

cmssoen21#

是的,这是可行的。这是一个非常常见的用例(使用s3和水合hdfs)。提供关于绩效的明确声明的挑战在于“这取决于”。我认为使用s3时,每美元的性能无可否认会更好,但是根据您组织数据的方式以及与数据的交互情况,使用本地数据时,直接的性能可能会更好(正如您所期望的那样)。
以下是一些与此相关的文章:
使用amazons3提高spark性能
aws emr性能hdfs与s3
选择s3而不是hdfs的五大理由
在s3中优化数据访问时要考虑的事项:
s3选择
电子病历最佳实践
最佳实践和优化电子病历

相关问题