我一直在研究nosql和hadoop的数据仓库,但我从来没有与此技术之前,我想问,如果这下面是可能的,以检查我是否得到了我的理解,这项技术的权利。
如果我的数据存储在mongodb中,我是否可以使用hadoop和hive直接对mongodb进行hiveql查询,并将这些查询的输出作为视图存储回mongodb,而不是hdfs?
另外,如果我理解正确的话,大多数nosql数据库都不支持连接和聚合,但是可以通过map reduce实现它们。如果我在hiveql中执行连接时,hiveql查询是map reduce作业,那么它是否已经自动“连接”了map reduce中的mongodb数据,而不必担心mongodb中缺少对连接和聚合的支持?
1条答案
按热度按时间n7taea2i1#
mongodb确实对聚合类函数有很好的支持。当然没有连接。mongodb模式通常的设计方式是,您通常不需要连接。
hiveql操作hdfs中的“表”。这是默认行为。但是你有一个mongodb hadoop连接器:http://docs.mongodb.org/ecosystem/tools/hadoop/ 它将允许您从hadoop中查询mongodb数据。
要使用map reduce,可以使用mongodb本身(不使用hadoop)。看这个:http://docs.mongodb.org/manual/core/map-reduce/