是否有使用nosql/hadoop解决方案设计的edw(企业数据仓库)系统?
我知道有一些pdw系统(ms pdw polybase、greenplum hawq等)连接到hdfs子系统。这些是专有的硬件和软件解决方案,规模昂贵。我正在寻找一个解决方案与nosql或hadoop,最好是企业数据仓库的开源解决方案。我想听听你的经验,如果你有任何实施。再说一次,我不想在这个edw解决方案中寻找任何类型的专有rdbms。
我在互联网上做了一些研究,虽然这是可能的( Impala 是一个可能的选择),但没有看到任何人真正实现完全与nosql或hadoop。
如果你做过这种类型的事情,我想听听你是如何设计的,你的业务分析师使用了哪些不同的工具等等。。。如果你能在旅途中分享你的经历,我将不胜感激。
正在更新。。。。voltdb和neodb如何(它们不是真正的rdbms),但是它们声称它们可以在更大程度上支持ansisql。
1条答案
按热度按时间thtygnil1#
在hadoop之上构建edw将面临的第一个问题是它的存储是不可更新的,因此您应该忘记sql update和delete命令。
其次,构建在hadoop之上的解决方案的维护成本通常要高出数倍。更昂贵的Maven,更复杂的调试(比较hive query中的调试问题和oracle中的sql查询问题-这会更容易)。
第三,hadoop通常为任何类型的工作负载提供更少的并发性和更高的延迟。
既然如此,为什么你认为dwh是建立在hadoop之上的,只适用于facebook、yahoo、ebay、linkedin等真正的大企业呢?因为它并不是那么简单,而在实现时,它可以比任何专有解决方案更具可伸缩性和可定制性。
因此,如果您明确决定继续使用hadoop或任何其他nosql解决方案来构建dwh,我建议您:
使用hadoop hdfs作为数据存储的基础
使用flume将数据加载到hdfs中
对繁重的etl作业使用hive和tez
为分析师提供impala作为sql查询接口
为分析人员提供spark高级工具
使用ambari管理和提供所有工具
这些工具一起可以满足您的大部分需求