连接到tableau中的sparkDataframe

ffvjumwh  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(422)

我们正试图通过sparksql连接性在tableau中生成报告,但我发现我们最终将连接到hive元存储。
如果是这样的话,那么这种新的sparksql连接有哪些优点呢。有没有一种方法可以使用sparksql从tableau连接到持久化的sparkDataframe。

ndasle7k

ndasle7k1#

这里的问题是一个画面问题,而不是Spark问题。每次连接到数据库时,spark sql connector都会启动spark作业。spark作业的一部分将底层的hive表加载到spark管理的分布式内存中,每次您在图形上进行更改或选择时,刷新必须深入到hive元存储以通过spark获取数据。这就是画面的设计。这里唯一的选择是更改spotfire(或其他工具)的tableau,通过预缓存基础配置单元表,sparksql连接器可以直接从spark分布式内存中查询它,跳过加载步骤。披露:我与spotfire制造商没有任何关联

相关问题