在描述配置单元中的扩展查询输出时,以下字段“totalsize”和“rawdatasize”是什么意思?

vh0rcniy  于 2021-05-29  发布在  Hadoop
关注(0)|答案(3)|浏览(1135)

如果在任何配置单元表上运行descripe extended命令,结果将在输出的末尾显示totalsize和rawdatasize值。
这些字段是什么意思?
前任:

hive > DESCRIBE EXTENDED <TableName>

Output Results:

Table(tableName:TablenameXXXXX, dbName:XXxXXX,
..........       .......................
numRows=116429472, totalSize=3835205544, rawDataSize=35040221600})
wn9m85ua

wn9m85ua1#

数据的大小由两个统计数据描述:
totalsize—磁盘上数据的近似大小
rawdatasize—内存中数据的近似大小
mapreduce上的配置单元使用totalsize。当两者都可用时,spark上的配置单元使用rawdatasize。由于压缩和序列化,同一个数据集的totalsize和rawdatasize之间可能会出现很大的差异。

cnjp1d6j

cnjp1d6j2#

rawdatasize是原始数据集的大小,totalsize是它所占用的存储量。它适用于orc文件格式,因为它压缩的数据总大小将小于rawdatasize。

wfveoks0

wfveoks03#

字段的含义是:
totalsize—存储表数据的磁盘上物理文件的总大小(以字节为单位)。
rawdatasize—列的每个数据类型大小乘以表中的行数之和。这也可用作查询优化器的估计(例如,确定表是否足够小,可以进行Map联接而不是简单联接)。

相关问题