我想知道为什么一个配置单元表需要被扣住以支持acid事务。只是一些Hive怪癖?还是背后有原因?
64jmpszr1#
以下是关于hive的压实机:压缩程序运行后台mapreduce作业来压缩增量文件和基文件。压实有两种类型:主要压实和次要压实。小压缩将许多小增量文件合并为一个大增量文件。主要压缩比较昂贵,它需要增量文件并将它们与基本文件合并。所有的合并都是通过创建一个新文件并删除旧文件来实现的。有一个特殊的清洁过程来做到这一点。每个铲斗分别进行压实。每个bucket创建基本文件和增量文件。更多信息:https://cwiki.apache.org/confluence/display/hive/hive+transactions因此,桶越多,压实速度越快。
1条答案
按热度按时间64jmpszr1#
以下是关于hive的压实机:
压缩程序运行后台mapreduce作业来压缩增量文件和基文件。压实有两种类型:主要压实和次要压实。小压缩将许多小增量文件合并为一个大增量文件。主要压缩比较昂贵,它需要增量文件并将它们与基本文件合并。所有的合并都是通过创建一个新文件并删除旧文件来实现的。有一个特殊的清洁过程来做到这一点。每个铲斗分别进行压实。每个bucket创建基本文件和增量文件。
更多信息:https://cwiki.apache.org/confluence/display/hive/hive+transactions
因此,桶越多,压实速度越快。