我还在学Hive。为了理解Hive中桶的概念,我参考了几本书。我学到的是,如果我们强制bucketing,它将创建与bucket数完全相同的文件数。
在我的例子中,我将在Bucked表中一天增量加载五次数据。例如:如果我有一个包含16个bucket的表,那么每次加载它都会基于hash/samples创建16个文件。因此,总共5次运行,将创建80个文件。
My Question is , if i have table with 16 buckets defined on it with 80 files
in HDFS, will it going to give bucketing benefits ?
1条答案
按热度按时间1tu0hz3e1#
是否为每个增量加载创建不同的表?
您使用哪个hadoop发行版?
我使用相同的策略,每次增量加载都会生成(并覆盖)我定义的相同数量的bucket。
当我们有权限问题时,会有重复的文件,因为配置单元表是用配置单元用户创建的,而填充是用另一个(hdfs)进行的。
在/user/hive/warehouse目录中查找表目录的所有者/权限,然后在子目录中查找相同的所有者/权限