目前,我正在为我的实习工作的解决方案,处理高达100000.000记录一天约10列。我必须保存每一条记录,15天后我们有大约150万条记录。
情况:所以,每天我都会收到大约10万条(可能还有几百万条)的记录,这些记录让我不得不做一些计算/分析。为此,我正在考虑使用hadoop进行mapreduce和分布式计算。使用mapreduce模式,我可以创建一组100.000条记录,并将它们分布在集群上,以进行分布式分析/计算
我不知道这是不是一个好的解决办法,但如果你有别的事情我必须考虑,请告诉我。
除此之外,我还必须存储所有这些记录,并每月使用它们来改进算法,以便每天进行计算。哪家商店最适合这种情况?我在考虑hbase或couchdb,因为我认为它们很符合我的要求。
1条答案
按热度按时间pw9qyyiw1#
实际上,hadoop不是一个数据库。hadoop是一个框架,它支持跨商品服务器集群对大型数据集进行分布式处理。它被设计成从一台服务器扩展到数千台机器,具有非常高的容错性。hadoop以mapreduce及其分布式文件系统(hdfs)而闻名
hbase是一个分布式的、面向列的数据库。hbase使用hdfs作为底层存储,并支持使用mapreduce和点查询的批处理式计算。
hive是一个分布式数据仓库。hive管理hdfs中存储的数据,并提供一种基于sql的查询语言(由运行时引擎转换为mapreduce作业)来查询数据。
**您可以做的是:使用hbase进行存储
使用配置单元进行分析
您还可以将两者集成,并使用配置单元查询(基于sql)存储在hbase中。