Avro、Hive或HBASE -每天1000万条记录使用什么？

jecbmhm3 于 2022-12-18 发布在 Hive

关注(0)|答案(1)|浏览(162)

本人有以下要求：我需要每天处理约20.000个元素（让我们称之为篮子），每个生成100和1.000之间的记录（让我们称之为篮子中的产品）。一个单一的记录约有10列，每行约有500 B-1 KB大小（总数）。
这意味着，我生产约5至最大20百万。记录每天。
从分析的Angular 来看，我需要做一些总结，过滤，特别是显示多天的趋势等。
该解决方案是基于Python的，我能够使用任何Hadoop，微软SQL Server，谷歌大查询等，我正在阅读大量的文章，关于Avro， parquet ，Hive，HBASE等。
我测试了SQL Server和两个表（一个是主要元素，另一个是全天生产的项目）。但是这样，数据库变得非常快，相当大+当试图访问，过滤等时，它不是那么快。
所以我考虑使用Avro，每天创建一个包含相应项目的Avro文件。当我想分析它们时，用Python读取它们，或者当我需要分析多个项目时，读取多个项目。
当我想到这一点，这可能是大的方式（30天的文件，每10 mio.记录）...
一定还有别的事情。然后我来到Hive和HBASE附近。但是现在我完全糊涂了。
有谁能以正确的方式排序吗？处理这类数据最简单或最通用的方法是什么？

Hive

来源：https://stackoverflow.com/questions/74655522/avro-hive-or-hbase-what-to-use-for-10-mio-records-daily

1条答案

按热度按时间

b09cbbtk1#

如果你想基于列和聚合来分析数据，ORC或Parquet更好。如果你不打算管理Hadoop基础设施，那么Hive或HBase就不能接受。我同意SQL Server可能会在处理大型查询时遇到困难......在列出的选项中，这就把范围缩小到了BigQuery。
如果您想在同一空间探索替代解决方案，ApachePinot或Druid支持分析用例。
否则，将文件（如parquet或ORC）放入GCS并使用pyspark

赞(0）回复(0）举报 2022-12-18

我来回答

Avro、Hive或HBASE -每天1000万条记录使用什么？

1条答案

相关问题

热门标签

最新问答