hive—针对大型表检查一个分区上的重复项的最有效方法

lhcgjxsq 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(228)

我正在创建一个在一个非常大的配置单元表（每天插入数百万行）上运行的查询。
我需要检查（在添加行之后，而不是之前）是否有重复项。我想知道下面的方法是否是最有效的方法，或者我是否应该检查新插入的行是否与现有数据重复。例如，这可以用over子句来完成吗？还是没有效率的提高？
表是在加载日期进行分区的，我使用tez。

select 
col1, 
count(*) as col1_count 
from database.table
group by col1
having count(*) >=2;

hadoop Hive hql data-quality

来源：https://stackoverflow.com/questions/42275381/hive-most-efficient-way-to-check-for-duplicates-on-one-partition-against-large

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

hive—针对大型表检查一个分区上的重复项的最有效方法

暂无答案！

相关问题

热门标签

最新问答