如何对每千行的配置单元表列进行分区

c90pui9n  于 2021-06-26  发布在  Hive
关注(0)|答案(0)|浏览(277)

在一个配置单元表中,我有数百万行,我想对一列id进行分区,这将是唯一的。因此,在该唯一列上创建分区不是一个好的做法,因为它将创建大量的文件和目录,这可能会减慢进程,所以有没有一种方法可以指定:在该“id”列上为每10k记录或30k记录创建一个分区。这样才能提高性能?例如:

create table test(name string, note string) partitioned by(id int) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE 
LOCATION 'hdfs://somelocation/'

另外,如果有一个日期类型的列,我们可以在该列上做一个分区吗 year and month only '? 比如按(年bigint,月bigint)或年和月一起划分?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题