我对大数据完全陌生,从最近几周开始我尝试构建日志分析应用程序。
我读了很多文章,发现kafka+spark流是最可靠的配置。
现在,我可以处理从简单的kafkajava生产者发送到spark流媒体的数据了。
有人可以建议一些事情,比如1)我如何实时读取服务器日志并将其传递给kafka代理。2) 有没有框架可以将数据从日志推送到kafka?3) 还有其他建议吗??
谢谢,乔达里
我对大数据完全陌生,从最近几周开始我尝试构建日志分析应用程序。
我读了很多文章,发现kafka+spark流是最可靠的配置。
现在,我可以处理从简单的kafkajava生产者发送到spark流媒体的数据了。
有人可以建议一些事情,比如1)我如何实时读取服务器日志并将其传递给kafka代理。2) 有没有框架可以将数据从日志推送到kafka?3) 还有其他建议吗??
谢谢,乔达里
1条答案
按热度按时间anhgbhbe1#
有很多方法可以收集日志并发送给Kafka。如果您希望将日志文件作为事件流发送,我建议您查看logstash/filebeats—只需将您的输入设置为fileinput并输出到kafka。
您还可以使用log4j kafkaappender将数据推送到kafka,或者使用许多已有的cli工具将日志管道传送到kafka。
如果您需要保证顺序,请注意分区配置和分区选择逻辑。例如,log4j appender将消息分发到所有分区。因为kafka只保证每个分区的顺序,所以spark流式处理作业可能会开始无序处理事件。