亚马逊极光rds大数据分析

ttisahbt  于 2021-06-27  发布在  Hive
关注(0)|答案(1)|浏览(447)

我有一个极光表,有5亿条记录。我需要进行大数据分析,比如找出两个表之间的差异。到目前为止,我一直在使用hive-on-files系统来完成这项工作,但现在我们已经将所有文件行插入到了aurora-db中。但我还是需要做同样的事情找到差异。
那么,什么样的选择才是最好的呢?
将aurora数据作为文件导出回s3,然后对其运行配置单元查询(将所有aurora行导出到s3需要多长时间)?
我可以在aurora表上运行配置单元查询吗?(我猜aurora上的配置单元不支持)
在aurora上运行sparksql(性能如何)?
或者有没有更好的办法。

w1jd8yoj

w1jd8yoj1#

在我看来,auroramysql不是执行大数据分析的好选择。它源于mysql innodb的限制,也源于与mysql innodb相关的对aurora的额外限制。例如,您没有发现数据压缩或列格式等特性。
在谈到aurora时,可以使用aurora parallel query,但它不支持分区表。
https://aws.amazon.com/blogs/aws/new-parallel-query-for-amazon-aurora/
另一种选择是使用aws glue直接连接到aurora并执行分析,但在这种情况下,您可能会遇到数据库性能问题。这可能是一个瓶颈。
https://docs.aws.amazon.com/glue/latest/dg/populate-add-connection.html
我建议使用load data from s3/select将数据导入/导出到s3,然后使用glue或emr执行分析。你也应该考虑用红移代替极光。

相关问题