我已经创建了一个bash脚本(github链接)来查询所有配置单元数据库;查询其中的每个表,解析这些表的lastupdatetime,并将它们提取到带有“tablename,lastupdatetime”列的csv中。
但是,这个查询速度很慢,因为在每次迭代中,对“hive-e…”的调用都会启动一个新的hive cli命令,这需要花费大量的时间来加载。
有没有一种方法可以加速加载hivecli或以其他方式加速查询来解决相同的问题?
我考虑过在脚本开始时只加载一次hivecli,并尝试使用 ! <command>
方法,但不确定如何在cli中执行循环,而且如果我可以在bash脚本文件中处理循环并执行该循环,则不确定如何将在hive cli中执行的查询的结果作为参数传递到此脚本。
如果不给出我运行它的系统的详细说明,脚本每分钟可以处理大约10个表,考虑到我们要应用它的数据库中可能有数千个表,我认为这非常慢。
暂无答案!
目前还没有任何答案,快来回答吧!