来自配置单元的单个文件输出

flvtvl50  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(379)

我有一个配置单元表,它使用serde在azure blob上存储文件。

field 1 int,
field 2 string, 
field 3 struct
ROW FORMAT SERDE 
  'org.apache.hive.hcatalog.data.JsonSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

当我向表中插入5000条记录时,输出由azure存储上的5000个blob组成,有没有办法将输出存储为单个blob,或者甚至减少每个blob中有更多记录的blob的数量?

qvtsj1bj

qvtsj1bj1#

好像是因为 HiveIgnoreKeyTextOutputFormat 使用ignore键特性来编写hdfs文件。请尝试指定其他输出格式,例如 HiveBinaryOutputFormat .

相关问题