hadoop配置单元sql：从格式奇怪的文件创建外部表

jqjz2hbq 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(378)

目前，我有一个初始系统正在工作，它读取一个文件，每行格式如下所示：

REVISION 12 30364918 Anarchism 2005-12-06T17:44:47Z RJII 141644

使用此代码：

CREATE EXTERNAL TABLE mytable(type STRING, aid BIGINT, rid BIGINT, title STRING, ts STRING, uname STRING, uid STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' STORED AS TEXTFILE LOCATION '/my/local/path/to/file';

但现在我有了一个文件，每行的格式如下：

2001-04-29T15:43:48Z    [10656,251129]

（请注意，时间戳后面有一个选项卡）
我不知道如何从中提取数据。我在网上找了一些建议，但似乎什么也找不到。
如果理论上我想从中得到

ts STRING -> 2001-04-29T15:43:48Z
aid BIGINT -> 10656
rid BIGINT -> 251129

hadoop Hive hbase bigdata

来源：https://stackoverflow.com/questions/20411233/hadoop-hive-sql-create-external-table-from-an-oddly-formatted-file

1条答案

按热度按时间

zte4gxcn1#

看起来第二个字段是json数组。您可以创建一个Map到实际底层结构的表，并定义一个视图来提取值。brickhouse的“from_json”和“json_split”自定义项(http://github.com/klout/brickhouse )可以为您解析json

CREATE EXTERNAL TABLE mytable(datestr STRING, jsonArray STRING) 
ROW FORMAT FIELDS DELIMITED BY '\t';

CREATE VIEW myview AS
SELECT datestr, numArr[0] as aid, numArr[1] as rid
FROM ( SELECT datestr, from_json( jsonArray, array( cast(1 as bigint) ) ;

赞(0）回复(0）举报 2021-06-04

我来回答

hadoop配置单元sql：从格式奇怪的文件创建外部表

1条答案

相关问题

热门标签

最新问答