处理hdfs文件

0kjbasz6 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(375)

首先让我说我是hadoop的新手。我的要求是使用hadoop基础设施分析服务器日志文件。我朝这个方向迈出的第一步是流化日志文件，并使用flume hdfs sink将它们原始地转储到我的单节点hadoop集群中。现在我有一堆文件，上面有这样的记录：
timestamp req id level module name消息
我的下一步是解析文件（分离字段）并将它们存储回去，这样就可以进行搜索了。
对此，我应该使用什么方法？我可以用Hive吗(抱歉，如果这个问题是天真的）。互联网上的信息多得让人应接不暇。

hadoop hdfs

来源：https://stackoverflow.com/questions/21873355/processing-hdfs-files

2条答案

按热度按时间

pdsfdshx1#

您可以使用hcatalog或impala进行更快的查询。

赞(0）回复(0）举报 2021-06-03

6ie5vjzr2#

根据您的解释，您有时间序列数据。hadoop和hdfs本身并不适用于随机访问或查询。您可以将hadoop的hbase数据库用作hdfs后端文件系统。它适合随机访问。另外，为了满足解析和重新排列数据的需要，可以使用hadoop的mapreduce.hbase内置的支持。hbase可用于mapreduce作业的输入/输出。
你可以从这里得到基本信息。为了更好地理解，请尝试行动手册中的hbase/hbase权威指南。

赞(0）回复(0）举报 2021-06-03

我来回答

处理hdfs文件

2条答案

相关问题

热门标签

最新问答