我们能为不同类型的数据集提供不同的块大小吗?假设我有两个表,一个包含10tb的数据,而另一个只包含10gb的数据。我可以为他们两个有不同的块大小,像256mb的前者和64mb的后者,以提高我的性能。如果是,那么请建议一种方法来实现这一点。另外,这可以简化为分区级别吗?其中一个分区有更多的数据,而另一个分区有更少的数据,这样我就可以为更大的分区提供更多的块大小?谢谢:-)
llycmphe1#
如果使用配置单元/orc存储数据集,则可以覆盖表定义中的块大小:
CREATE TABLE mytable (mycol string,..)STORED AS ORC TBLPROPERTIES ("hive.exec.orc.default.block.size"="67108864");
CREATE TABLE mytable (mycol string,..)
STORED AS ORC TBLPROPERTIES ("hive.exec.orc.default.block.size"="67108864");
对于分区,我看不到任何解决方案。
1条答案
按热度按时间llycmphe1#
如果使用配置单元/orc存储数据集,则可以覆盖表定义中的块大小:
对于分区,我看不到任何解决方案。