处理hdfs文件

0kjbasz6  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(375)

首先让我说我是hadoop的新手。我的要求是使用hadoop基础设施分析服务器日志文件。我朝这个方向迈出的第一步是流化日志文件,并使用flume hdfs sink将它们原始地转储到我的单节点hadoop集群中。现在我有一堆文件,上面有这样的记录:
timestamp req id level module name消息
我的下一步是解析文件(分离字段)并将它们存储回去,这样就可以进行搜索了。
对此,我应该使用什么方法?我可以用Hive吗(抱歉,如果这个问题是天真的)。互联网上的信息多得让人应接不暇。

pdsfdshx

pdsfdshx1#

您可以使用hcatalog或impala进行更快的查询。

6ie5vjzr

6ie5vjzr2#

根据您的解释,您有时间序列数据。hadoop和hdfs本身并不适用于随机访问或查询。您可以将hadoop的hbase数据库用作hdfs后端文件系统。它适合随机访问。另外,为了满足解析和重新排列数据的需要,可以使用hadoop的mapreduce.hbase内置的支持。hbase可用于mapreduce作业的输入/输出。
你可以从这里得到基本信息。为了更好地理解,请尝试行动手册中的hbase/hbase权威指南。

相关问题