在一个配置单元表中,我有数百万行,我想对一列id进行分区,这将是唯一的。因此,在该唯一列上创建分区不是一个好的做法,因为它将创建大量的文件和目录,这可能会减慢进程,所以有没有一种方法可以指定:在该“id”列上为每10k记录或30k记录创建一个分区。这样才能提高性能?例如:
create table test(name string, note string) partitioned by(id int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE
LOCATION 'hdfs://somelocation/'
另外,如果有一个日期类型的列,我们可以在该列上做一个分区吗 year and month only
'? 比如按(年bigint,月bigint)或年和月一起划分?
暂无答案!
目前还没有任何答案,快来回答吧!