从压缩(gz格式)文件创建外部表而不选择所有字段

bweufnob 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(417)

我在一个文件夹里有gz文件。我只需要从这些文件3列，但每行有超过100个。现在我用这种方式创建一个视图。

drop table MAK_CHARGE_RCR;
create external table MAK_CHARGE_RCR
(LINE string)
STORED as SEQUENCEFILE
LOCATION '/apps/hive/warehouse/mydb.db/file_rcr';
drop view VW_MAK_CHARGE_RCR;
create view VW_MAK_CHARGE_RCR as
Select LINE[57] as CREATE_DATE, LINE[64] as SUBS_KEY, LINE[63] as RC_TERM_NAME 
from
    (Select split(LINE, '\\|') as LINE
    from MAK_CHARGE_RCR) a;

视图中有我需要的字段。现在我也要这么做，但是没有CTA，我不知道该怎么做。我能做什么？
有人告诉我table一定是这个样子

create external table MAK_CHARGE_RCR
(CREATE_DATE string, SUBS_KEY string, RC_TERM_NAME etc)

我可以这样把线分开

ROW FORMAT DELIMITED
  FIELDS TERMINATED BY '\\|'

但我需要列出每一列。我有另外一组超过1000列的文件。所有这些我都要列出来。这似乎有点过分，所以我想知道是否有可能这样做

create external table arstel.MAK_CHARGE_RCR
(split(LINE, '\\|')[57] string,
split(LINE, '\\|')[64] string
etc)

这显然不起作用，但也许有解决办法？

sql Hive external-tables

来源：https://stackoverflow.com/questions/43094458/creating-external-table-from-compressed-gz-format-files-without-selecting-all

1条答案

按热度按时间

cfh9epnr1#

正则表达式
出于教育目的
附笔
我打算创建一个csv serde的增强版本，除了一个额外的参数和请求列的位置。

演示

猛击

echo {a..c}{1..100} | xargs -n 100 | tr ' ' '|'  | \
hdfs dfs -put - /user/hive/warehouse/mytable/data.txt

Hive

create external table mytable
(
    col58   string
   ,col64   string
   ,col65   string
)
row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe'
with serdeproperties ("input.regex" = "^(?:([^|]*)\\|){58}(?:([^|]*)\\|){6}([^|]*)\\|.*$")
stored as textfile
location '/user/hive/warehouse/mytable'
;

select * from mytable
;

+---------------+---------------+---------------+
| mytable.col58 | mytable.col64 | mytable.col65 |
+---------------+---------------+---------------+
| a58           | a64           | a65           |
| b58           | b64           | b65           |
| c58           | c64           | c65           |
+---------------+---------------+---------------+

展开查看全部

赞(0）回复(0）举报 2021-06-26

我来回答

从压缩(gz格式)文件创建外部表而不选择所有字段

1条答案

演示

相关问题

热门标签

最新问答