我知道这个问题有点奇怪。我喜欢hadoop和hdfs,但最近正在使用hivemetastore开发sparksql。
我想使用sparksql作为一个垂直的sql引擎来跨不同的数据源运行olap查询,比如rdb、mongo、elastic。。。没有etl过程。然后,我用相应的配置单元存储处理程序将不同的模式注册为metastore中的外部表。
此外,hdfs在我的工作中没有用作数据源。然后,给定的map/r已经被spark引擎所取代。在我看来,hadoop/hdfs除了作为hive安装的基础之外毫无用处。我不想全部买下。
我想知道如果我只启动没有hadoop/hdfs来支持sparksql的hivemetastore服务,会发生什么样的问题。我会把自己投入丛林吗?
1条答案
按热度按时间11dmarpk1#
您需要的是“hive local mode”(在页面中搜索“hive、map reduce和local mode”)。
这也可能有帮助。
只有在本地进行实验时才建议使用此配置。但在这种情况下,您只需要元存储。
也是从这里来的;
sparksql使用hivemetastore,即使我们没有配置它。未配置时,它使用默认的derby db作为元存储。
所以这似乎是相当合法的;
在hive中安排元存储
以本地模式启动配置单元
让spark使用hive metastore
将spark用作配置单元支持的所有数据源的sql引擎。