我喜欢将一个1.5 gb的文件插入到一个配置单元表中,首先我创建了1000个bucket,然后创建了40个bucket和5个bucket,但是这需要很多次,请帮助完成。提前谢谢。敬你,仁甘丹
c6ubokkw1#
这取决于您的用例,例如,如果您想将数据加载到读操作非常少而写操作较多的表中,则建议保留略多的减缩器以加快写操作。因为map reduce作业将调用与bucket数相同的reducer数,这意味着更快的写入速度。一般情况下。根据拇指规则,存储桶大小应该大约等于块大小,例如,如果数据大小为1.5gb,块大小为128mb,则如此1500mb/128mb~=12所以你可以保持你的桶数为12。另一种决定的方法是让你的桶大小,这样他们可以放入内存。这将帮助您实现bucket连接,因为您可以使用与上面提到的相同的方法计算bucket
1条答案
按热度按时间c6ubokkw1#
这取决于您的用例,例如,如果您想将数据加载到读操作非常少而写操作较多的表中,则建议保留略多的减缩器以加快写操作。因为map reduce作业将调用与bucket数相同的reducer数,这意味着更快的写入速度。
一般情况下。根据拇指规则,存储桶大小应该大约等于块大小,例如,如果数据大小为1.5gb,块大小为128mb,则如此
1500mb/128mb~=12
所以你可以保持你的桶数为12。
另一种决定的方法是让你的桶大小,这样他们可以放入内存。这将帮助您实现bucket连接,因为您可以使用与上面提到的相同的方法计算bucket