我们有来自客户的大约10 tb的数据,这些数据必须使用配置单元进行加载和查询,并创建聚合表,再次需要多次查询。我打算用 AWS S3 在一个存储桶中存储10 tb数据,并使用 EMR .这是一个可行的方法还是性能会很差?可以使用哪些替代方法来加快查询速度?
AWS S3
EMR
cmssoen21#
是的,这是可行的。这是一个非常常见的用例(使用s3和水合hdfs)。提供关于绩效的明确声明的挑战在于“这取决于”。我认为使用s3时,每美元的性能无可否认会更好,但是根据您组织数据的方式以及与数据的交互情况,使用本地数据时,直接的性能可能会更好(正如您所期望的那样)。以下是一些与此相关的文章:使用amazons3提高spark性能aws emr性能hdfs与s3选择s3而不是hdfs的五大理由在s3中优化数据访问时要考虑的事项:s3选择电子病历最佳实践最佳实践和优化电子病历
1条答案
按热度按时间cmssoen21#
是的,这是可行的。这是一个非常常见的用例(使用s3和水合hdfs)。提供关于绩效的明确声明的挑战在于“这取决于”。我认为使用s3时,每美元的性能无可否认会更好,但是根据您组织数据的方式以及与数据的交互情况,使用本地数据时,直接的性能可能会更好(正如您所期望的那样)。
以下是一些与此相关的文章:
使用amazons3提高spark性能
aws emr性能hdfs与s3
选择s3而不是hdfs的五大理由
在s3中优化数据访问时要考虑的事项:
s3选择
电子病历最佳实践
最佳实践和优化电子病历