我有一个配置单元表,它使用serde在azure blob上存储文件。
field 1 int,
field 2 string,
field 3 struct
ROW FORMAT SERDE
'org.apache.hive.hcatalog.data.JsonSerDe'
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
当我向表中插入5000条记录时,输出由azure存储上的5000个blob组成,有没有办法将输出存储为单个blob,或者甚至减少每个blob中有更多记录的blob的数量?
1条答案
按热度按时间qvtsj1bj1#
好像是因为
HiveIgnoreKeyTextOutputFormat
使用ignore键特性来编写hdfs文件。请尝试指定其他输出格式,例如HiveBinaryOutputFormat
.