我在配置单元中创建了一个指向gzip文件的外部表
create external table IF NOT EXISTS raw_CN (
column1 string,
column2 string,
column3 string,
column4 string,
column5 string,
column6 string,
column7 string,
column8 string,
column9 string,
column10 string
)按(day|id string,file|type string)行格式分隔的字段,以存储为textfile的“|”结尾;
添加了分区:
Alter table raw_CN add partition (day_id = '20140815' , file_type = 'Daily' ) location '/mapr/mapr.cluster/CN/20140501/Daily';
将gzip文件放在上面的位置
但是,当我查询表时,第一行还提供了一些文件级信息(文件中没有头)。如何从第一行开始解决此问题(其余行都可以):
Vendor1_617_CN_Daily.201408150000664000202600020260243475554512373676764017202 0ustar fworksfworks4F06C1A123456|82910|26|ESPN2|ESPN2|2014/08/15 01:09:42|2014/08/15 01:10:13|233|53066|Jefferson-Walworth (Jefferson), WI
123456|82910|8|WMLW|WMLW|2014/08/15 03:16:53||233|53066|Jefferson-Walworth (Jefferson), WI
123456|82910|3|WITI|WITI|2014/08/15 14:34:13|2014/08/15 14:35:20|233|53066|Jefferson-Walworth (Jefferson), WI
123456|82910|43|HGTV|Home & Garden Television (East)|2014/08/15 14:35:20|2014/08/15 14:37:00|233|53066|Jefferson-Walworth (Jefferson), WI
1条答案
按热度按时间omhiaaxx1#
这取决于你使用的Hive的版本。
对于hive版本13及更高版本:
有一个表属性
tblproperties ("skip.header.line.count"="1")
可以在创建表时使用。所以它会跳过那一行。对于hive版本12及以下:
您需要手动或使用一些shell/python脚本删除行/头。
希望对你有帮助。。。!!!