我正在创建一个在一个非常大的配置单元表(每天插入数百万行)上运行的查询。我需要检查(在添加行之后,而不是之前)是否有重复项。我想知道下面的方法是否是最有效的方法,或者我是否应该检查新插入的行是否与现有数据重复。例如,这可以用over子句来完成吗?还是没有效率的提高?表是在加载日期进行分区的,我使用tez。
select col1, count(*) as col1_count from database.table group by col1 having count(*) >=2;
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!