多年来,我一直在阅读/听说bigint列上的数据库连接比(var)char列上的连接具有“性能优势”。
不幸的是,在寻找有关“简单型问题”的真正答案/建议时:
所使用的示例是在“传统”rdbms上下文中使用的,比如mysql或oracle/sqlserver。以这个问题或这个例子为例
答案很古老,运行时的最终差别也不是很大。再看一次这个例子
我还没有看到使用hive版本(最好是1.2.1或更高版本)的示例,其中一个大型(大数据)数据集(比如说5亿多行)连接到一个类似大小的数据集:
偏僻的专栏
而不是(var)char(32)列。
相对于(var)char(255)列。
我选择32是因为它是一个md5散列的大小,转换成字符,255是因为它在我见过的最大的自然密钥的范围内。
此外,我希望Hive:
在tez引擎下运行
使用(压缩的)文件格式,如orc+zlip/snappy
有没有人知道这样一个例子,通过展示hive explain计划、cpu、文件和网络资源+查询运行时来证明?
暂无答案!
目前还没有任何答案,快来回答吧!