用于快速查找表大小(行数)的配置单元查询

f45qwnt8 于 2021-06-03 发布在 Hadoop

关注(0)|答案(6)|浏览(461)

是否有一个配置单元查询可以快速查找表大小（即行数），而无需启动耗时的mapreduce作业(所以我想避免 COUNT(*) .)
我试过了 DESCRIBE EXTENDED ，但结果是 numRows=0 这显然是不正确的。
（为新问题道歉。我试着在google上搜索apache.org文档，但没有成功。）

hadoop Hive

来源：https://stackoverflow.com/questions/21208574/hive-query-to-quickly-find-table-size-number-of-rows

6条答案

按热度按时间

wixjitnu1#

使用Parquet格式存储外部/内部表的数据。然后你会得到更快的结果。

赞(0）回复(0）举报 2021-06-03

nkhmeac62#

解决方案，虽然不是很快
如果表是分区的，我们可以计算分区的数量和每个分区中的行数。
例如：，如果按日期划分（mm dd yyy）

select partition_date, count(*) from <table_name> where <partion_column_name> >= '05-14-2018' group by <partion_column_name>

赞(0）回复(0）举报 2021-06-03

jgovgodb3#

tblproperty将给出表的大小，如果需要，可以使用它来获取该值。

-- gives all properties
show tblproperties yourTableName

-- show just the raw data size
show tblproperties yourTableName("rawDataSize")

赞(0）回复(0）举报 2021-06-03

f87krz0w4#

如何使用：

hdfs dfs -du -s -h /path/to/table/name

赞(0）回复(0）举报 2021-06-03

jfewjypa5#

这是个好问题。count（）将花费大量时间来查找结果。但不幸的是，count（）是唯一的方法。
有一种替代方法（不能说是替代的，但比上述情况更好的延迟）：
设置属性
设置hive.exec.mode.local.auto=true；
并运行相同的命令（ select count(*) from tbl )它比以前提供更好的延迟。

赞(0）回复(0）举报 2021-06-03

4zcjmb1e6#

这是快速命令

ANALYZE TABLE tablename [PARTITION(partcol1[=val1], partcol2[=val2], ...)] COMPUTE STATISTICS [noscan];

例如，如果表已分区

hive> ANALYZE TABLE ops_bc_log PARTITION(day) COMPUTE STATISTICS noscan;

输出为
分区logdata.ops\u bc\u log{day=20140523}统计：[numfiles=37，numrows=26095186，totalsize=654249957，rawdatasize=580809507]
分区logdata.ops\u bc\u log{day=20140521}统计：[numfiles=30，numrows=21363807，totalsize=564014889，rawdatasize=47556570705]
分区logdata.ops\u bc\u log{day=20140524}统计：[numfiles=35，numrows=25210367，totalsize=631424507，rawdatasize=56083164109]
分区logdata.ops\u bc\u log{day=20140522}统计：[numfiles=37，numrows=26295075，totalsize=657113440，rawdatasize=58496087068]

赞(0）回复(0）举报 2021-06-03

我来回答

用于快速查找表大小(行数)的配置单元查询

6条答案

相关问题

热门标签

最新问答