假设我有下面的结构化数据文件
1298712012061228765236542123049824234209374 1203972012073042198531203948203498023498023 1203712012092329385612350924395798456892345 1234812012101223423498230482034893204820398
在上面的文件中,前6位是(1-6)中的用户id,后8位是(7-12)中的年份\日期,后6列是(13-18)中的计数字段,同样地,对于上面的平面文件,我有(19-30)中的产品\ id和(31-42)中的字符\值列,所以我想要下面的格式的数据。我的意思是,我想用这个字段加载我的数据。在Pig或 hive 里有没有其他的选择?
2条答案
按热度按时间xyhw6mcr1#
你会用子串吗?
bd1hkmkf2#
你可以用它在Pig和 hive 。以下是两种解决方案
清管器:
倾倒时:
卸料板(29871,29871,29871,29871,29871)
(20397,20397,20397,20397,20397)
(20371,20371,20371,20371,20371)
(23481,23481,23481,23481,23481)
Hive:
第一步:创建临时表,加载原始数据;
第二步:创建一个适合你的数据的表格。
第三步:把你的临时表插入actula表