hadoop—跨各种属性聚合的最佳技术堆栈

ni65a41a 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(376)

我们正致力于开发一个平台，该平台对图形中的实体流进行建模。系统必须回答这样的问题：有多少具有这些属性的实体位于图上的给定节点上，节点上的流入量是多少，节点上的流出量是多少等。流数据以流的形式提供给系统。我们正在考虑将流数据分解为时间桶（比如5分钟），根据不同的属性预先计算各种聚合，并将聚合存储在dynamodb中以服务于查询。
为此，我们正在评估以下选项：
emr：将流数据放入aws-s3/dynamodb运行map reduce/hive作业
将最新数据放入aws-rds，通过sql计算聚合
akka：它是一个通过参与者和消息传递构建分布式应用程序的框架。
如果有人从事过类似的用例或者使用过以上任何技术，请告诉我什么方法最适合我们的用例。

hadoop amazon-s3 amazon-web-services amazon-redshift elastic-map-reduce

来源：https://stackoverflow.com/questions/15386628/best-technology-stack-for-aggregation-across-various-properties

2条答案

按热度按时间

piztneat1#

最终的解决方案采用了aws-redshift，驱动原因是redshift通过copy命令提供高速数据摄取。
hadoop是为了高效地存储数据而构建的，但是它不能保证一个次秒的sla来接收数据，也不能为mr jobs提供数据何时可用的sla，这是我们通常不使用emr或hadoop的主要原因。

赞(0）回复(0）举报 2021-06-03

4uqofj5v2#

我用电子病历来处理s3中的数据。。。效果不错。最好的一点是，您可以旋转各种大小的hadoop集群，以适应工作负载。
您可能需要查看storm以进行流处理
我还在这里收集大数据工具列表：http://hadoopilluminated.com/hadoop_book/bigdata_ecosystem.html

赞(0）回复(0）举报 2021-06-03

我来回答

hadoop—跨各种属性聚合的最佳技术堆栈

2条答案

相关问题

热门标签

最新问答