使用配置单元脚本从文件中删除额外的行

carvr3hs  于 2021-06-25  发布在  Hive
关注(0)|答案(1)|浏览(279)

我有一些文本文件,其中一些有标题,一些没有和一些有额外的行之前,实际记录开始。有没有办法去掉多余的线。基本上,我是使用指定位置的文件创建一个外部表。任何链接都会非常有用。
基本上,没有特定的行数来跨越标头,否则我可以使用跳过标头
TBLProperty(“skip.header.line.count”=“1”)

frebpwbc

frebpwbc1#

在这种情况下,只有过滤才有帮助。在“从表中选择”期间筛选标题:

select t.* 
  from your_table t
 where t.col not in ('header_value1','header_value2','header_value3')

这也会过滤掉空值。若要允许空值,请添加 OR t.col is NULL

相关问题