如果在任何配置单元表上运行descripe extended命令,结果将在输出的末尾显示totalsize和rawdatasize值。
这些字段是什么意思?
前任:
hive > DESCRIBE EXTENDED <TableName>
Output Results:
Table(tableName:TablenameXXXXX, dbName:XXxXXX,
.......... .......................
numRows=116429472, totalSize=3835205544, rawDataSize=35040221600})
3条答案
按热度按时间wn9m85ua1#
数据的大小由两个统计数据描述:
totalsize—磁盘上数据的近似大小
rawdatasize—内存中数据的近似大小
mapreduce上的配置单元使用totalsize。当两者都可用时,spark上的配置单元使用rawdatasize。由于压缩和序列化,同一个数据集的totalsize和rawdatasize之间可能会出现很大的差异。
cnjp1d6j2#
rawdatasize是原始数据集的大小,totalsize是它所占用的存储量。它适用于orc文件格式,因为它压缩的数据总大小将小于rawdatasize。
wfveoks03#
字段的含义是:
totalsize—存储表数据的磁盘上物理文件的总大小(以字节为单位)。
rawdatasize—列的每个数据类型大小乘以表中的行数之和。这也可用作查询优化器的估计(例如,确定表是否足够小,可以进行Map联接而不是简单联接)。