亚马逊极光rds大数据分析

ttisahbt 于 2021-06-27 发布在 Hive

关注(0)|答案(1)|浏览(480)

我有一个极光表，有5亿条记录。我需要进行大数据分析，比如找出两个表之间的差异。到目前为止，我一直在使用hive-on-files系统来完成这项工作，但现在我们已经将所有文件行插入到了aurora-db中。但我还是需要做同样的事情找到差异。
那么，什么样的选择才是最好的呢？
将aurora数据作为文件导出回s3，然后对其运行配置单元查询（将所有aurora行导出到s3需要多长时间）？
我可以在aurora表上运行配置单元查询吗？（我猜aurora上的配置单元不支持）
在aurora上运行sparksql（性能如何）？
或者有没有更好的办法。

Hive apache-spark amazon-s3 amazon-aurora

来源：https://stackoverflow.com/questions/52726924/big-data-analysis-on-amazon-aurora-rds

1条答案

按热度按时间

w1jd8yoj1#

在我看来，auroramysql不是执行大数据分析的好选择。它源于mysql innodb的限制，也源于与mysql innodb相关的对aurora的额外限制。例如，您没有发现数据压缩或列格式等特性。
在谈到aurora时，可以使用aurora parallel query，但它不支持分区表。
https://aws.amazon.com/blogs/aws/new-parallel-query-for-amazon-aurora/
另一种选择是使用aws glue直接连接到aurora并执行分析，但在这种情况下，您可能会遇到数据库性能问题。这可能是一个瓶颈。
https://docs.aws.amazon.com/glue/latest/dg/populate-add-connection.html
我建议使用load data from s3/select将数据导入/导出到s3，然后使用glue或emr执行分析。你也应该考虑用红移代替极光。

赞(0）回复(0）举报 2021-06-27

我来回答

亚马逊极光rds大数据分析

1条答案

相关问题

热门标签

最新问答