因此,我尝试通过web界面使用hive将日志文件导入hadoop集群。日志文件的格式为
"/log/apache/apache91" "10.93.123.135" "8081" "12.93.145.7" "12.93.123.7" "/index.html" "" "114" "111211" "21111" "200" "200" "[14/Mar/2013:23:00:15 -0400]" "-" "-" "-" "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET4.0C; .NET4.0E)" "-" "-" "-" "-"
所以我尝试在hue中使用自动表创建,使用引号作为分隔符。但这给了我一个空列的每一秒列。我理解为什么会发生这种情况是因为分隔符。有没有一种方法可以导入没有空列的数据,或者我可以删除空列,或者我可以从现有的表中创建一个新表并只提取我想要的数据。
我有很多数据要导入。如果有人能给我一个更好的解决方案,我愿意接受。
1条答案
按热度按时间jfgube3f1#
配置单元只支持一个字符作为分隔符,因此确实需要一个字段分隔符或tsv/csv格式。
也许您可以配置记录器的分隔符(切换到制表符或逗号而不是空格),并且您不需要预处理步骤。