我每天有2 gb的web服务器日志生成如何过滤它们?

mqkwyuun  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(315)

我有一个web服务器,其他网站重定向到一些获取参数。我的情况:
目前我每天有2GB的web服务器日志。
我需要过滤日志至少半年(~350gb的日志)。
我正在使用amazon基础设施将日志存储在s3 bucket上。我有两个web服务器正在写日志。
我应该使用哪种技术来查询/过滤这些数据?以前我在一台ubuntu机器上下载文件,然后grep它以获得结果。我也在aws上测试了hadoop,但是我发现它很难使用。
以下哪种技术/解决方案是最好的:
过滤速度
易学
易于更改过滤规则
谢谢你对此事的关注

wsewodh2

wsewodh21#

您可以使用aws cloud watch日志流;正确地说,它是为你的需要而创建的。您可以创建日志流,并使用客户端(web服务器)上的小代码,自动将日志推送到cloudwatch。
将日志数据发送到CloudWatch后,您可以从日志文件中搜索、筛选、创建度量和 Jmeter 板。
例如,您希望统计日志中的所有“失败登录”,或者您希望计算web服务器下游大小或任何其他度量。
这很容易而且很快。
同样使用CloudWatch,您可以创建警报并在日志文件中发生某些事件时接收警报。
最后,您可以从日志指标创建一个beatifull Jmeter 板。
享受云观看!!
更多信息:
https://aws.amazon.com/cloudwatch/
http://docs.aws.amazon.com/amazoncloudwatch/latest/developerguide/whatiscloudwatchlogs.html

dba5bblo

dba5bblo2#

在您的情况下,我将推荐elasticsearch(支持与多个aws集成)。
它简单易用,足够快,可扩展性强,并且有很棒的插件kibana和logstash。
第一个用于可视化,第二个用于日志解析/过滤,它有一个配置文件,您可以在其中随意更改过滤器。
这里有一个很好的教程,所以你可以开始使用logstash。

相关问题