我的公司正在考虑使用Flume进行一些相当大容量的日志处理。我们认为日志处理需要分布式,这是出于卷(可伸缩性)和故障转移(可靠性)的原因,flume似乎是一个明显的选择。
然而,我们认为我们肯定遗漏了一些明显的东西,因为我们没有看到flume如何提供自动可伸缩性和故障转移。
我想定义一个流程,对每条测井线说,做a,然后把它传递,做b,然后把它传递,做c,依此类推,这似乎和Flume很匹配。但是,我希望能够用纯逻辑的术语定义这个流,然后基本上说,“嘿,flume,这里是服务器,这里是流定义,开始工作吧!”。服务器会死机(ops会重新启动它们),我们会将服务器添加到集群中,然后注销其他服务器,flume只会将工作定向到任何有可用容量的节点。
本文描述了hadoopmapreduce如何实现可伸缩性和故障转移,我假设flume也是这样。但是,文档认为这意味着我需要手动配置每个逻辑节点在哪些物理服务器上运行,并为每个节点配置特定的故障切换场景。
我说的对吗,Flume不符合我们的目的,还是我错过了什么?
谢谢你的帮助。
1条答案
按热度按时间bf1o4zei1#
根据您是否使用多个主机,您可以对配置进行编码以遵循故障转移模式。
这在指南中相当详细:http://archive.cloudera.com/cdh/3/flume/userguide/index.html#_automatic_failover_chains
直截了当地回答您的问题,flume还不能自动找出故障转移方案。