amazon web服务—与使用硬盘存储的服务器相比，aws emr在s3上的性能

7dl7o3gd 于 2021-06-24 发布在 Hive

关注(0)|答案(1)|浏览(611)

我们有来自客户的大约10 tb的数据，这些数据必须使用配置单元进行加载和查询，并创建聚合表，再次需要多次查询。
我打算用 AWS S3 在一个存储桶中存储10 tb数据，并使用 EMR .
这是一个可行的方法还是性能会很差？
可以使用哪些替代方法来加快查询速度？

Hive amazon-emr amazon-s3 amazon-web-services

来源：https://stackoverflow.com/questions/57161722/performance-of-aws-emr-over-s3-compared-to-server-with-harddisk-storage

1条答案

按热度按时间

cmssoen21#

是的，这是可行的。这是一个非常常见的用例（使用s3和水合hdfs）。提供关于绩效的明确声明的挑战在于“这取决于”。我认为使用s3时，每美元的性能无可否认会更好，但是根据您组织数据的方式以及与数据的交互情况，使用本地数据时，直接的性能可能会更好（正如您所期望的那样）。
以下是一些与此相关的文章：
使用amazons3提高spark性能
aws emr性能hdfs与s3
选择s3而不是hdfs的五大理由
在s3中优化数据访问时要考虑的事项：
s3选择
电子病历最佳实践
最佳实践和优化电子病历

赞(0）回复(0）举报 2021-06-24

我来回答

amazon web服务—与使用硬盘存储的服务器相比，aws emr在s3上的性能

1条答案

相关问题

热门标签

最新问答