表有限数据提取慢速连接

z0qdvdin 于 2021-06-02 发布在 Hadoop

关注(0)|答案(2)|浏览(467)

我在tableau中设计可视化，我的数据在hive/hadoop中，数据量很大，
当我试图设计可视化时，查询运行得非常慢，因为每次它都试图从hadoop中提取数据。
所以对于任何一个可视化，它通常需要4分钟的简单拖放和可视化可能有10秒的拖放，所以我结束了大量的时间等待。我尝试使用数据提取选项，但是数据提取要花很长时间（38分钟，而且还在继续）
问：有没有办法我只能提取1000条记录，这样我就可以在这1000条记录上创建viz，然后在设计完成后切换到实时连接。我试着寻找社区的帮助，但到目前为止没有运气

hadoop performance tableau-api data-extraction

来源：https://stackoverflow.com/questions/39845574/tableau-limited-data-extract-slow-connection

2条答案

按热度按时间

x0fgdtte1#

一个选项可能是关闭“自动更新”，以便它不会在每次拖放时重新加载数据：
https://onlinehelp.tableau.com/current/pro/desktop/en-us/queries_autoupdates.html
你可以尝试的另一件事是以下几点。在hive中，您可以创建一个只有1000行的较小版本的表。然后在表上创建一个视图，并将tableau指向该视图。根据视图设计viz，完成后在hive中重新创建视图以指向真实的表。这可能会有所帮助，但如果Hive试图为每次拖放启动一个map-reduce任务，它仍然会非常缓慢。
根据我对tableau的经验，您希望将数据集缩小到可以使用extract选项的大小。任何与hive有实时连接的交互式 Jmeter 板都会很慢。但是，如果您可以将数据集聚合到一个可管理的大小，那么如果您执行提取，它就可以非常好地工作。我不再使用tableau了，但是在过去，我用了30-60分钟刷新和加载数百万行的摘录，效果很好。

赞(0）回复(0）举报 2021-06-02

dly7yett2#

复制xl中的所有数据，将我的表格与xl连接起来，并在几分钟内完成我的dahsboard，由于xl和hive具有完全相同的字段，我可以用hive替换xl连接，它就工作了。它抱怨的计算领域的一些表，但我想我可以重做的一部分，Hive和四处走动。

赞(0）回复(0）举报 2021-06-02