目前我正在做一个项目,在商业智能和大数据领域,两个领域,在所有诚实我是新的,非常绿色。
我计划使用mongodb构建一个hive数据仓库,并将其与pentaho这样的商业智能平台连接起来。在研究过程中,我遇到了spark,并对它的shark模块感兴趣,因为它具有内存中的功能,并且在执行查询时提高了性能。
我知道我可以将hive连接到pentaho,但我想知道的是,我是否可以在它们之间使用shark查询来提高性能?如果不是的话,是否有人知道任何其他bi平台会允许这样做?
正如我所说,我在这方面是相当新的,所以请随意纠正我,因为有一个很好的机会,我有一些概念混淆,说了一些白痴。
2条答案
按热度按时间6uxekuva1#
首先,鲨鱼正在被星火sql吸收。sparksql提供了一个jdbc/odbc连接器。这将允许您将它与大多数现有平台集成。
huus2vyu2#
我认为应该使用hive构建hive数据仓库,或者使用mongodb构建mongodb数据仓库。我不明白你要怎么把它们混在一起,但我还是会尽量回答这个问题的。
通常,为bi工具配置一个jdbc驱动程序(例如hive),bi工具使用这个jdbc驱动程序获取数据。驱动程序如何从db中获取数据对于bi工具来说是完全透明的。
因此,您可以使用hive、shark或jdbc驱动程序附带的任何其他db。
我可以这样总结您的选择:
配置单元:最完整的功能集,也是最兼容的工具。可以在普通数据上使用,也可以将数据etl成orc格式,从而提高性能。
Impala :号称比Hive快,但功能不全。可以在普通数据上使用,或者,您可以将数据etl为其parquet格式,从而提高性能。
鲨鱼:尖端,还不是主流。性能取决于哪些百分比的数据可以放入集群上的ram中。