我发现有字典过滤器在 Impala 做Parquet扫描。评论说该列是100%字典编码的,可以进行字典过滤。什么样的列可以用字典编码?有字典过滤的例子吗?谢谢。
o2rvlv0m1#
每行组的字典大小有一个上限,对于impala<2.9,它是40000。因此它与编码列的基数有关。基本上,如果在一个行组中有许多不同的字符串,字典编码就不会是100%。您可以进一步参考此文档
1条答案
按热度按时间o2rvlv0m1#
每行组的字典大小有一个上限,对于impala<2.9,它是40000。因此它与编码列的基数有关。基本上,如果在一个行组中有许多不同的字符串,字典编码就不会是100%。您可以进一步参考此文档