pxf配置单元插件,仅选择查询中选定的列

ygya80vv  于 2021-06-28  发布在  Hive
关注(0)|答案(1)|浏览(362)

除了hive分区过滤之外,有没有其他方法可以让pxf只选择查询中使用的列。
我以hiveorc格式存储数据,并使用pxf外部表在hawq中执行查询。最大的表存储在hive中,我们不能在hawq中复制另一个数据。
谢谢--
p、 查询优化器是否收集hawq2.0中外部表的统计信息?

zqry0prt

zqry0prt1#

你总是可以跑 select foo from bar hawq中外部表的类型查询。但是,如果您的问题是pxf是否确实执行了列投影以避免读取所有列,那么答案是否定的。当前pxf将从orc文件中读取所有列,并将记录返回给hawq,hawq将在其末尾执行投影过滤。然而,https://issues.apache.org/jira/browse/hawq-583,正在积极研究中,应该在即将发布的hawq版本中发布,该版本将把列投影向下推到orc,以提高orc文件的读取性能
是的,查询优化器确实收集外部表的统计信息,这也由pxf处理。但是,这仅适用于某些数据源:https://issues.apache.org/jira/browse/hawq-44

相关问题