单片etl到分布式/可扩展解决方案和olap多维数据集到elasticsearch/solr

fzsnzjdm  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(409)

我是一个比较新的大数据处理从so社区寻找一些具体的指导。
我们目前使用的是单片/顺序etl,不用说,随着数据的增长,它是不可伸缩的。我们的选择是什么(当然是分布式和并行化,但需要详细说明)?我已经玩过hadoop,在这里使用它可能是合适的,但我想知道还有什么其他的选择吗?对于数据库开发人员来说,这可能是更容易过渡到的?
与上述问题相关的是,我们还有一个用于聚合数据的olap多维数据集。elasticsearch或solr是替代olap多维数据集的好候选吗?有人成功地做到了吗?有什么问题吗?

shstlldc

shstlldc1#

我们目前正在研究的是同一种用例。
我们的方法可能会被充分利用。
步骤1:我们正在将数据从dbs复制到hdfs
第2步:pig脚本中的etl逻辑
步骤3:在聚合的表数据上建立索引以解决问题。
第四步:通过web界面搜索solr。
在我们的用例中,我们正在开发pig作业来执行转换逻辑,将它们以增量的方式存储到最终的文件夹中。稍后mr indexer工具将把数据索引到solr中。我们正在使用cloudera搜索。有什么事就告诉我。

相关问题