我不擅长“大数据”:
我的场景是几个ec2示例,而不是生成日志。
这些日志基本上是系统日志和应用程序事件(自定义日志)。
我想使用一个麋鹿堆栈捕捉日志,应用过滤器和显示数据。
在某些情况下,我希望将自定义事件发送到专用队列系统(rabbitmq)以处理数据(推荐引擎)。
我的问题是,为什么我应该使用kafka和hadoop这样的工具,如果基本上,我只想解析24小时保留的日志,并使用debian的日志循环函数移动它们?
非常感谢你的帮助!对不起,我的英语不好^^
我不擅长“大数据”:
我的场景是几个ec2示例,而不是生成日志。
这些日志基本上是系统日志和应用程序事件(自定义日志)。
我想使用一个麋鹿堆栈捕捉日志,应用过滤器和显示数据。
在某些情况下,我希望将自定义事件发送到专用队列系统(rabbitmq)以处理数据(推荐引擎)。
我的问题是,为什么我应该使用kafka和hadoop这样的工具,如果基本上,我只想解析24小时保留的日志,并使用debian的日志循环函数移动它们?
非常感谢你的帮助!对不起,我的英语不好^^
1条答案
按热度按时间ccrfmcuu1#
如果有人感兴趣,我可以这样解决:
1-为了使用默认的日志轮换,我选择了使用云监视服务,基本上它从ec2获取日志并将其存储在云中。
2-对于push data to logstash,我使用了lambda服务,基本上它是一个可以执行java、javascript(nodejs)或python代码的环境。它接收来自cloudwatch的流式数据流,我选择通过一个小nodejs脚本将日志存储在s3上。
3-logstash示例直接使用来自s3的日志,为此有一个插件输入。