本人有以下要求:我需要每天处理约20.000个元素(让我们称之为篮子),每个生成100和1.000之间的记录(让我们称之为篮子中的产品)。一个单一的记录约有10列,每行约有500 B-1 KB大小(总数)。
这意味着,我生产约5至最大20百万。记录每天。
从分析的Angular 来看,我需要做一些总结,过滤,特别是显示多天的趋势等。
该解决方案是基于Python的,我能够使用任何Hadoop,微软SQL Server,谷歌大查询等,我正在阅读大量的文章,关于Avro, parquet ,Hive,HBASE等。
我测试了SQL Server和两个表(一个是主要元素,另一个是全天生产的项目)。但是这样,数据库变得非常快,相当大+当试图访问,过滤等时,它不是那么快。
所以我考虑使用Avro,每天创建一个包含相应项目的Avro文件。当我想分析它们时,用Python读取它们,或者当我需要分析多个项目时,读取多个项目。
当我想到这一点,这可能是大的方式(30天的文件,每10 mio.记录)...
一定还有别的事情。然后我来到Hive和HBASE附近。但是现在我完全糊涂了。
有谁能以正确的方式排序吗?处理这类数据最简单或最通用的方法是什么?
1条答案
按热度按时间b09cbbtk1#
如果你想基于列和聚合来分析数据,ORC或Parquet更好。如果你不打算管理Hadoop基础设施,那么Hive或HBase就不能接受。我同意SQL Server可能会在处理大型查询时遇到困难......在列出的选项中,这就把范围缩小到了BigQuery。
如果您想在同一空间探索替代解决方案,ApachePinot或Druid支持分析用例。
否则,将文件(如parquet或ORC)放入GCS并使用pyspark