我是hadoop新手,正在尝试在配置单元中导入文件。我使用的源数据在某些列之间没有delimeter。
例子:
0000856214AB25 256 T PL1423AS ......
2563458547CD12 748 S AK2523YU ... and so on...
我已经以txt格式从大型机导入了这个文件。我有固定字符数的字段(第1列(1-10)、第2列(11-12)、第3列(13-14))
我想要的结果是如下读取这些原始数据:
1st column - 0000856214
2nd column - AB
3rd column - 25
4th column - 256
5th column - T
6th column - PL
7th column - 1423AS
如何使用配置单元导入此数据?
2条答案
按热度按时间gojuced71#
你能试试这个吗?。
输入文件
使用regex创建配置单元表:
数据加载:
列选择:
cxfofazt2#
感谢sivasakthi jayaraman的解决方案
我为上次的错误找到了解决办法。
下载jar
hive-contrib-0.8.1.jar
(在我的情况下,我hive-contrib-0.12.0-cdh5.0.2.jar
在/usr/lib/hive/lib/
路径。)ADD JAR /home/user17/hive/hive-contrib-0.8.1.jar
(就我而言—ADD JAR /usr/lib/hive/lib/hive-contrib-0.12.0-cdh5.0.2.jar
)您将看到它将被添加。
现在,
0000856214
2563458547
(如预期)