用于emr的hi1.4x1大型ssd ec2示例

bcs8qyzn 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(316)

**结束了。**这个问题离题了。它目前不接受答案。
**想改进这个问题吗？**更新问题，使其成为堆栈溢出的主题。

8年前关门了。
改进这个问题
我有几个hadoop作业，我在emr上运行。其中一些作业需要处理日志文件。日志文件是巨大的~3gb，每一个都是.gz格式。日志存储在s3上。
目前，我使用m1.xlarge进行处理，仅将日志文件从s3复制到hdfs大约需要3小时。在这里，瓶颈是从s3读取还是写入hdfs？
我计划使用新的基于ssd的hi1.4xlarge，因为它具有快速的i/o，而不是m1.xlarge。但这有助于降低成本吗？
但是hi1.4x的成本要比m1.xlarge大得多。
m1.xlarge-8 ec2计算单位@0.614$每个=4.912$/小时h1.4XL-35 ec2计算单位@3.1$每个=108.5$/小时
价格上涨了23倍左右。我的表现会有那么大的提高吗？将我的hadoop作业视为高i/o限制。
我无法通过启动hi1.4x1.4x1大型示例来测试它，所以在stackoverflow上请求它。有人有比较这两种示例类型的基准吗？谷歌没有帮助。
当做。

hadoop amazon-s3 amazon-ec2 emr solid-state-drive

来源：https://stackoverflow.com/questions/12836311/hi1-4xlarge-ssd-ec2-instance-for-emr

1条答案

按热度按时间

xcitsw881#

我不认为ssd示例是好的选择，因为它们的值在高随机io中，而在hadoop中我们需要顺序io。
在从s3复制到hdfs的过程中，s3无疑是一个瓶颈。
为了省钱，我建议尝试更小的示例来平衡io和cpu
您是否使用distcp将数据从s3复制到hdfs（只是为了检查…）
如果您在每个集群生存期处理一次日志，那么您可以直接从s3处理日志，避免复制到hdfs。

赞(0）回复(0）举报 2021-06-03

我来回答

用于emr的hi1.4x1大型ssd ec2示例

1条答案

相关问题

热门标签

最新问答