如何在创建配置单元表时确定存储桶

cclgggtu  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(365)

我喜欢将一个1.5 gb的文件插入到一个配置单元表中,首先我创建了1000个bucket,然后创建了40个bucket和5个bucket,但是这需要很多次,请帮助完成。
提前谢谢。
敬你,仁甘丹

c6ubokkw

c6ubokkw1#

这取决于您的用例,例如,如果您想将数据加载到读操作非常少而写操作较多的表中,则建议保留略多的减缩器以加快写操作。因为map reduce作业将调用与bucket数相同的reducer数,这意味着更快的写入速度。
一般情况下。根据拇指规则,存储桶大小应该大约等于块大小,例如,如果数据大小为1.5gb,块大小为128mb,则如此
1500mb/128mb~=12
所以你可以保持你的桶数为12。
另一种决定的方法是让你的桶大小,这样他们可以放入内存。这将帮助您实现bucket连接,因为您可以使用与上面提到的相同的方法计算bucket

相关问题