我想尝试apache flink、hadoop和solr对日志进行非侵入性的摄取,以便对它们进行处理和索引,并对它们进行一些分析和查询。我正在考虑使用flink对几个应用程序的应用程序日志进行数据处理,然后将它们放到hadoop上,然后使用solr查询它们。问题是:这真的是非侵入性的吗?flink的行为类似于flume,因为代理是在我喜欢监视的服务器上安装和配置的?hadoop和solr是索引大量日志然后以sql方式查询它的一个很好的组合吗?它们可以洞察数据,并做出一些在创建警报时有用的预测?
谢谢您。
2条答案
按热度按时间mccptt671#
我建议在这里使用麋鹿堆。麋鹿堆栈是elasticsearch、logstash和kibana。
Logstash
:从任何来源摄取数据到elasticsearch。源可以是rdbms、文件、mq等任何东西。将目标视为elasticsearch。在logstach中,您可以通过在conf文件中提及输入和输出来配置相同的配置。您可以过滤logstash conf文件中的数据。
Elasticsearch
:elasticsearch是一个基于lucene库的搜索引擎。它提供了一个分布式的、支持多租户的全文搜索引擎,具有http web接口和无模式的json文档。一旦数据被索引到elasticsearch上。您可以通过rest调用获取数据。您可以使用elasticsearch的watcher功能,在某些特定情况下获取警报/通知。Kibana
:kibana是一个用于elasticsearch的开源数据可视化插件。它在elasticsearch集群上索引的内容之上提供可视化功能。用户可以在大量数据上创建条形图、线形图、散点图、饼图和Map。您可以使用apache flink而不是logstash来接收数据。apache flink可以将数据接收到elasticsearch。这是一个例子。
apache flink到elasticsearch
z9gpfhce2#
我建议您看看flink的sql支持。一些公司正在用它来做警报和预测。这将大大简化您的堆栈,因为您不需要hadoop或solr(或elk堆栈)。