使用hadoop进行日志分析,以发现错误场景和频繁的重复事务

2g32fytz  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(335)

我有一个业务场景,其中我想有我的应用服务器日志,我想完成以下任务-
找出日志中捕获的错误场景,以查找错误代码[日志中]、导致的异常、时间。
某些用户所做的重复事务可能是安全漏洞。
发生上述两种情况时通知管理员。
我可以使用一些具有批处理功能的多线程基本java应用程序来实现这一点,但是我想使用大数据技术来实现这一点,另外我还想对应用程序的行为进行一些图形化的表示。
有人能建议我最好的技术使用,以实现这一相当快和可扩展的?如果可能的话,架构如何做到这一点?
如果有人能帮上忙那就太好了

ru9i0ody

ru9i0ody1#

您是否考虑过实施大数据解决方案?我也有类似的要求。我的数据源是weblogic域应用程序日志。这是我的方法。1使用flume或其他流工具将weblogic应用程序错误日志流到hadoop中。2将数据加载到sparkDataframe中。三。编写sparksql查询以分析错误数据
我们有一个数据库错误日志表。我将使用它作为另一个数据源来关联web逻辑db异常。weblogic错误数据是csv格式,由两个管道符号(“| |”)分隔。但是,输入数据的问题是,最后一列数据被分散到多行,如下所示。spark将下一行最后一列的延续视为“新行”,因此加载失败。如果有人对如何处理这个问题有任何想法,我将不胜感激。
||20160704 | | 01:58:32294 | | 396C0A8E2470E7A21467619110768 | | com.seic.dataservices.impl.instrumentsearchdoimpl | |[active]executethread:'9'表示队列:0)…表tabel | name中不存在工具id(1004915)价格日期(2016年7月1日)。未找到价格数据。。ora-06512:在“qxx\u .error\u pkg”第502行ora-06512:在“qxx\u .im\u pricing”第6221行ora-06512:在第1行)

相关问题