我是一个比较新的大数据处理从so社区寻找一些具体的指导。我们目前使用的是单片/顺序etl,不用说,随着数据的增长,它是不可伸缩的。我们的选择是什么(当然是分布式和并行化,但需要详细说明)?我已经玩过hadoop,在这里使用它可能是合适的,但我想知道还有什么其他的选择吗?对于数据库开发人员来说,这可能是更容易过渡到的?与上述问题相关的是,我们还有一个用于聚合数据的olap多维数据集。elasticsearch或solr是替代olap多维数据集的好候选吗?有人成功地做到了吗?有什么问题吗?
shstlldc1#
我们目前正在研究的是同一种用例。我们的方法可能会被充分利用。步骤1:我们正在将数据从dbs复制到hdfs第2步:pig脚本中的etl逻辑步骤3:在聚合的表数据上建立索引以解决问题。第四步:通过web界面搜索solr。在我们的用例中,我们正在开发pig作业来执行转换逻辑,将它们以增量的方式存储到最终的文件夹中。稍后mr indexer工具将把数据索引到solr中。我们正在使用cloudera搜索。有什么事就告诉我。
1条答案
按热度按时间shstlldc1#
我们目前正在研究的是同一种用例。
我们的方法可能会被充分利用。
步骤1:我们正在将数据从dbs复制到hdfs
第2步:pig脚本中的etl逻辑
步骤3:在聚合的表数据上建立索引以解决问题。
第四步:通过web界面搜索solr。
在我们的用例中,我们正在开发pig作业来执行转换逻辑,将它们以增量的方式存储到最终的文件夹中。稍后mr indexer工具将把数据索引到solr中。我们正在使用cloudera搜索。有什么事就告诉我。